麻省理工学院设计出人工智能系统可用来识别物体的变形

人工智能

636人已加入

描述

人类利用对物质世界的隐式理解来预测物体的运动,并推断它们之间的相互作用。举个例子,如果你看到三个显示倾倒的罐子的画面,第一个画面是罐子整齐地堆叠在一起,第二个画面是手指放在堆放好的罐子的底部,第三个画面是罐子倾倒了,那么,你很有可能会认为这个手指是造成罐子倾倒的原因。

机器人努力实现这些逻辑上的飞跃。但在麻省理工学院计算机科学与人工智能实验室的一篇论文中,研究人员描述了一个称为时间关系网络(TRN)的系统--它基本上学习了物体是如何随时间变化的。

这个团队并不是第一个这样做的人,有很多公司都在研究工智能辅助时空建模,百度和谷歌也不例外。但麻省理工学院的团队声称较之以前的方法,他们的方法在既有准确性,又有效率。
 

这篇论文的主要作者Bolei Zhou告诉《麻省理工学院新闻》:“我们建立了一个人工智能系统来识别物体的变形,而不是物体的外观。这个系统不会检查所有的帧,而是拾取关键帧,使用帧的时间关系来识别正在发生的事情。这提高了系统的效率,使其准确实时地运行。”

研究人员在三个数据集的基础上训练了卷积神经网络--一类非常擅长分析视觉图像的机器学习模型:TwentyBN的Something-Something,包含174个动作类别中的2万多个视频;Jester包含具有27个手势的15万个视频;卡内基梅隆大学的Charades,包括157个分类活动的1万个视频。

然后,他们将网络与视频文件结合,通过按组排序帧进行处理,并设定屏幕上的物体与学习活动相匹配的概率,比如例如撕开一张纸或举手。

那么,这是怎么做到的?由于信息量有限,这个模型设法达到了Jester数据集的95%准确率,并且在预测活动方面优于现有的模型。那怎么办?在处理了25%的视频帧后,这个模型超越了基线,甚至设法区分了“假装打开书”和“打开书本”等行为。

在未来的研究中,这个团队打算通过实现物体识别和添加“直观物理”来改进模型的复杂性--即,理解物体在真实世界中所具有的属性。

Zhou说:“因为我们知道这些视频中的很多物理知识,我们可以训练模块来学习这些物理定律,并用它来识别新的视频。我们还开放所有源代码和模型。对人工智能来说,活动理解是一块令人兴奋的发展领域。”

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分