谷歌眼镜通过增强现实疗法帮助自闭症儿童理解面部表情。
想象一下这个场景:快到晚饭时间了,小吉米呆在厨房里。他妈妈正忙着把晚饭端上饭桌,并且她把所有餐具都堆放在了厨房的操作台上。患有自闭症的吉米则希望把餐具摆放得更加整齐,当他妈妈在炉子旁时,他便小心翼翼地开始把每一把餐叉、餐刀和汤勺放回餐具抽屉的槽里。突然,吉米听到一声喊叫。他妈妈声音很大,她的脸色看起来不一样了。但他还在继续收拾着餐具。 现在想象一下,吉米戴着一种特殊的谷歌眼镜,这是谷歌在2013年推出的一款增强现实头戴设备。当他抬头看着他妈妈时,头戴显示器亮起一个绿框,提示吉米他“发现了一张脸”。当他盯着他妈妈的脸看时,一个表情符号跳出来,告诉吉米:“你发现了一张生气的脸。”于是,他会思考为什么他妈妈会生气。也许他应该停下收拾餐具,去问问她。 我们的团队已经花了6年的时间来研究这项针对自闭症儿童的辅助技术,孩子们把这项技术称为“超级眼镜”。我们的系统为孩子在家中提供行为疗法,这是最初学习社交技能的地方。该系统使用眼镜外置摄像头记录孩子与家人之间的互动;然后我们的软件会检测到这些视频中的人脸,并解读他们表达的情绪。通过一个应用程序,看护人可以查看自动剪辑的社交互动视频。 多年来,我们已经对原型进行了改进,并通过临床试验证明它的疗效:我们发现,使用这款眼镜可以增加孩子们的眼神交流和社交参与感,还可以提高他们对情绪的识别能力。我们在斯坦福大学的团队与本文作者之一丹尼斯•沃尔(Dennis Wall)的分拆公司Cognoa合作,为“超级眼镜”赢得了“突破性疗法”的称号,该项技术迅速获得了美国食品药品管理局(FDA)的批准。我们的目标是进入健康保险计划,以此来支付该项技术作为增强现实治疗疗法的费用。 当谷歌眼镜第一次作为消费类设备出现时,许多人认为不需要使用它。面对惨淡的评价和销量,谷歌2015年停止了消费版产品的生产。但当该公司于2017年携带该设备的二代产品——“企业版眼镜”重返市场时,许多行业开始看到了它的潜力。在这里,我们将讲述我们如何利用这项技术为自闭症儿童提供一种看世界的新方式。
当吉米戴上眼镜时,他很快就习惯了视野边缘的头戴显示器(棱镜)。当吉米开始与家人进行互动时,这个眼镜就会将视频数据发送到看护人的智能手机上。我们的应用程序配有最新的人工智能(AI)技术,可以检测人脸和情绪,并将信息发送回眼镜。当检测到人脸时,头戴显示器的边框就会亮起绿色,然后显示器通过表情图形、表情符号或书面文字来识别面部表情。用户还可以选择从眼镜内的骨传导扬声器获取音频暗示(一种识别情绪的声音),该扬声器通过头骨向内耳发送声波。该系统可以识别7种面部表情,包括快乐、愤怒、惊讶、悲伤、恐惧、厌恶,还有蔑视——我们标记为“失望”,这样对孩子更友好一些。它还能识别中性的表情。
为了鼓励孩子们佩戴“超级眼镜”,这款应用程序目前提供了两款游戏:“捕捉微笑”——孩子试图从他人身上引发出快乐或另一种情绪;“猜猜表情”——人们表现各种情绪,然后让孩子们猜出是哪种情绪。这款应用程序还会记录会话中的所有活动,并标记社交活动的瞬间。这让吉米和他妈妈能够一起观看他们在厨房里出现矛盾的视频,这会促使他们讨论究竟发生了什么事情,以及下次他们如何避免这样的情况发生。
“超级眼镜”系统的三大要素——人脸检测、情感识别和App回顾,可以帮助自闭症儿童边戴边学。鼓励孩子们去寻找社交互动,使得他们了解人脸是有趣的,意识到可以从面部表情中收集有价值的信息。但是眼镜并不需要永久佩戴。孩子们每周在自己家里做几次20分钟的治疗,目前整个干预疗程为6周。孩子们能很快学会如何察觉他们社交伙伴的情绪,然后,在他们获得社交自信心后,就不再使用眼镜了。
我们的系统旨在改善一个严重的问题:孩子们只能接受有限的强化行为治疗。尽管有证据表明这种疗法可以减少甚至消除自闭症的核心症状,但孩子们必须在8岁之前就开始接受这种疗法,才能真正见效。目前诊断的平均年龄是4至5岁,等待治疗可能会超过18个月。其部分原因是,自1990年以来,美国自闭症儿童的诊断人数猛增了600%,现在大约每40个孩子中就有一个患有自闭症;而在亚洲和欧洲的一些地区,增长却没有如此剧烈。
由于需要治疗的儿童人数与能够提供治疗的专家人数之间的不平衡越来越严重,因此我们认为,临床医生必须寻求以分散方式扩大规模的解决方案。我们认为,不能一切都依赖专家,帮助所有这些儿童所需的工具,如数据采集、监控和治疗工具,必须交到患者及其父母的手中。
为自闭症儿童提供原位辅助学习的努力可以追溯到20世纪90年代,当时麻省理工学院的教授罗莎琳德•皮卡德(Rosalind Picard)设计了一个带有耳机和显示情绪提示的微型计算机系统。然而,当时的可穿戴技术既笨重又突兀,情绪识别软件也很原始。而如今的可穿戴设备(例如谷歌眼镜)都很低调,而且我们拥有了强大的人工智能工具,它们利用了大量关于面部表情和社交互动的公开数据。━━━━谷歌眼镜的设计是一项惊人的壮举,工程师基本上把智能手机装进了一个类似眼镜的轻型框架中。这种形状因子给开发者带来了一个有趣的挑战:我们必须在电池寿命、视频流性能和热量之间做出权衡。例如,在设备上处理数据产生热量过多,会自动触发操作回调。当我们尝试在设备上运行计算机视觉算法时,该系统会自动降低捕捉视频的帧速率,严重影响快速识别情绪和提供反馈的能力。 我们的解决方案是通过Wi-Fi将谷歌眼镜与智能手机配对。眼镜可以捕捉视频,将视频流传输到手机,并向佩戴者传递反馈信息。手机可以进行人脸检测与跟踪、特征提取、面部表情识别等繁重的计算机视觉工作,并存储视频数据。
但是,“眼镜到手机”的视频流也有自己的问题:虽然眼镜能以正常的分辨率捕捉视频,但我们只能以低分辨率进行传输。因此,我们编写了一个协议,将眼镜新检测到人脸的图像放大,这样视频流信息就足够详细,可用于我们的视觉算法。
我们的计算机视觉系统最初是使用现成的工具。软件流水线由人脸检测器、人脸跟踪器和人脸特征提取器组成;一个经过标准数据集和我们自己数据集训练的情绪分类器接收数据。在我们刚开始开发流水线时,在移动设备上运行能够处理实时分类任务的深度学习算法还不可行。但在过去的几年里,我们取得了显著的进步,现在我们正在研发一款升级版的“超级眼镜”,它配有深度学习工具,可同时进行人脸跟踪和情绪分类。
这次升级不是一项简单的任务。情绪识别软件主要用于广告行业,用于衡量消费者对广告的情绪反应。我们的软件在几个关键点都有所不同。首先,它不是用于计算机,而是用于可穿戴和移动设备,因此我们必须将它的内存和处理要求降到最低。可穿戴形状因子也意味着,不是通过稳定的网络摄像头捕捉视频,而是通过孩子们佩戴的移动摄像头捕捉视频。我们已经添加了图像稳定器来处理视频的抖动,人脸检测器要频繁地初始化,找到在场景中突然改变位置的人脸。
失效判定也是一个严重的问题。例如,一个商业情绪识别系统可能声称有98%的准确率;这样的统计数据通常意味着该系统对绝大多数人效果都很好,但始终无法识别小部分人的表情。这种情况对于研究人们观看广告的总体情绪可能是合适的,但对于“超级眼镜”,这个软件必须经常解读孩子与同一个人的互动情况。如果这个系统持续识别失败的两个人碰巧是孩子父母,这个孩子就太不走运了。 我们已经开发了一些自定义的方法来解决这些问题。在我们的“中性减法”方法中,系统首先记录某个人中性表情的脸。然后,软件根据检测到的该人当前显示的脸和记录的中性估值之间的差异,对该人的表情进行分类。比如,系统可能学会,爷爷仅仅眉头紧锁,并不意味着他总是生气。我们还在进一步研究机器学习技术,该技术可快速为每个用户软件实现个性化。制造一个稳健的人机交互系统,让用户没有太多挫败感,是一个相当大的挑战。我们正在试验几种游戏化校准过程的方法,我们认为“超级眼镜”系统必须具有适应能力,才能取得商业成功。 我们从一开始就意识到这个系统是不完善的,于是设计了反馈来反映这一现实。绿框人脸检测功能最初是为了缓解挫败感:如果系统没有跟踪到朋友的脸,至少用户知道这一点,并且不会等待永远不会出现的反馈。然而,随着时间的推移,我们开始认识到绿框自身就是一种干预治疗,只要佩戴者看到一张脸,绿框都会提供反馈,对于患有自闭症系列障碍的儿童,这种行为会有明显不同。━━━━为了评估“超级眼镜”,我们在过去6年里进行了3次研究。第一次研究是在我们的实验室里,有一个非常初级的原型,用来测试患有自闭症的儿童戴上谷歌眼镜后会有什么样的反应,以及他们会接收到什么样的情绪提示。接下来,我们制作了一个完整的原型,并开展了一次设计试验,在这个试验中,自闭症孩子的家庭把这些设备带回家几个星期。我们定期与这些家庭进行互动,并根据他们的反馈对原型进行修改。 用手中这台精心修改的原型样机,我们开始对设备的功效进行严格的测试。我们进行了一项随机对照试验,其中一组儿童接受典型的居家行为疗法,而另一组儿童则接受这种疗法外加使用“超级眼镜”。我们使用了4组常用自闭症研究测试,寻找情绪识别和更广泛的社交技能的改善。正如我们在2019年《美国医学会小儿科期刊》(JAMA Pediatrics)上发表的论文中所述,在一组测试中,干预组表现明显优于对照组。
我们还请家长告诉我们他们注意到了什么。他们点评技术功能、用户挫折感以及他们希望看到的新功能,他们的观察帮助我们改进了原型的设计。我们居家设计试验开始时的一封电子邮件就很引人注目。这位家长报告说自己的小孩立即有了显著的改善:“在通过谷歌眼镜互动过程中,他实际上正在看着我们……就好像他身上的开关被打开了一样……谢谢你们!!!我儿子正看着我的脸。”
这封邮件非常鼓舞人心,但听起来好得令人难以置信。然而,在我们的研究中,关于增加眼神交流的评论一直存在,我们在一份设计研究的出版物中记录了这个有趣的反馈。时至今日,我们仍能从“照明开关”参与者小组那里听到类似的故事。 我们相信“超级眼镜”系统是有效的,但说实话,我们真的不知道为什么有效。我们还无法确定导致增加眼神交流、社交参与度和情绪识别的主要行为机制是什么。这一未知为我们目前的研究提供新的信息。情绪识别反馈对孩子的帮助最大吗?还是我们的设备的主要功效是通过绿框吸引人们对脸的注意力?或者我们只是提供了一个平台来增加家庭内部的社交互动?这个系统是以同样的方式帮助所有的孩子,还是以不同的方式满足不同人群的需求?如果我们能够回答这些问题,那我们干预治疗的设计就能更有针对性和个性化。 由丹尼斯•沃尔创立的初创公司Cognoa,目前正致力于将我们的“超级眼镜”原型转变为可进入医生处方的临床疗法。在2019年2月美国食品药品管理局认定该项技术为“突破性疗法”,这将加快获得健康保险公司监管批准和接纳的进程。Cognoa公司的增强现实疗法将适用于大多数类型的智能手机,它不仅与谷歌眼镜兼容,还将与即将上市的新品牌智能眼镜兼容。在另一个项目中,该公司正在开发一种数字工具,医生可以用它来诊断只有18个月大的儿童,这可使这些儿童在大脑发育的关键时期准备接受治疗。 最终,我们认为我们的治疗方法还可以用于自闭症以外的问题儿童。例如,针对语言障碍儿童,或者被诊断患有注意力缺陷多动障碍的孩子,我们可以为他们设计游戏和反馈。我们正在设想用各种普遍存在的人工智能设备为用户提供治疗,并反之推动技术改进的良性循环;这些设备在辅助学习的同时,还可以捕捉数据,帮助我们了解如何更好地进行个性化治疗。在这个过程中,甚至还可以对各种失调症获得新的科学见解。最重要的是,这些设备将能够帮助家庭掌握自己的治疗和家庭动态。通过“超级眼镜”和其他可穿戴设备,他们将看到未来的方向。
全部0条评论
快来发表一下你的评论吧 !