如何使机器像人一样对物理世界直观理解？-电子发烧友网

郑南宁院士在首届中国认知计算与混合智能学术大会上，从人工智能的五大学术流派讲起，分析了符号化人工智能与深度神经网络的局限性，并详细剖析了“使机器像人一样对物理世界直观理解”的直觉AI，以其团队实践的无人驾驶为例，分析人工智能中的认知与推理是如何解决实际问题的。

“首届中国认知计算与混合智能学术大会”于2018年8月25-26日在西安举行。本次大会的主题是研讨与交流认知科学、神经科学与人工智能学科等领域交叉融合的最新进展和前沿技术，西安交通大学人工智能与机器人研究所教授，中国工程院院士郑南宁作为大会报告的最后一位嘉宾分享了题为《直觉性AI与无人驾驶》报告。以下为报告的主要内容：

传统人工智能及其局限性

人工智能追求的长期目标是使机器能像人类一样感知世界和解决问题。对当前人工智能而言，解决某些对人类来说属于智力挑战的问题可能是相对简单的，但对看似简单的与真实物理世界交互的能力依然非常差（无人驾驶就属于这类问题）。

目前，人工智能主要有以下五大学术流派：

①符号主义：使用符号、规则和逻辑来表征知识和进行逻辑推理，最喜欢的算法是：规则和决策树

②联结主义：使用概率矩阵和加权神经元来动态地识别和归纳模式，最喜欢的算法是：神经网络③贝叶斯派：获取发生的可能性来进行概率推理，最喜欢的算法是：朴素贝叶斯或马尔可夫

④进化主义：生成变化，然后为特定目标获取其中最优的，最喜欢的算法是：遗传算法⑤Analogizer：根据约束条件来优化函数（尽可能走到更高，但同时不要离开道路），常用的算法：支持向量机（SVM）。

人类面临的许多问题具有不确定性、脆弱性和开放性。今天人工智能的理论框架，建立在演绎逻辑和语义描述的基础方法之上，但我们不可能对人类社会的所有问题建模，因为这中间存在着条件问题，我们不可能把一个行为的所有条件都模拟出，这是传统人工智能的局限性。

符号化人工智能的局限性

需要对问题本身抽象出一个精确数学意义上的解析式的数学模型（抽象不出，即归纳为不可解问题）

需要对已建立的数学模型设计出确定的算法

确定的算法无法表示现实世界问题所固有的测不准性和不完备性

图灵意义下的可计算问题都是可递归的（“可递归的”都是有序的，而实际中存在大量的开放性、动态性和脆弱性问题）

深度神经网络的局限性

过度依靠训练数据

缺乏推理和对因果关系的表达能力（而大量的人工智能问题需要给出处理对象间的关联、因果以及控制关系）

依靠于指令驱动或数据驱动，其存储架构无法进行高效的图数据索引和存储（而在一些应用中需要基于事件驱动的计算）

无法在计算过程中实现有效的注意机制（计算负载与资源分配），而选择性注意机制是构成高级AI的基本核心

构建直觉性AI

人脑对于非认知因素的理解更多地来自于直觉，并受到经验和长期知识积累的影响，这些因素在人对物理环境理解与行为交互、非完整信息处理等问题中有着极其重要的作用。而且人类的学习是一种与事物互动的过程，人类认知过程中的特征概念形成往往是建立在语义解释的基础上；人类依赖对事物的观察（或显著性特征的注意）在大脑中建立不同的内部分析模型，并利用这些模型来推测事物的变化，或是从过去的事件预测未来。

而机器学习中的特征提取及预测模型与人类认知过程中的特征概念形成及其内部分析模型是完全不同的，为使机器学习模型产生人类的认知结果，需要其所学特征在一定程度上符合神经生理学实验结果，同时要使特征具有数学和语义的解释性。此外，大脑神经网络结构的可塑性，以及人脑在非认知因素和认知功能之间的相互作用，它们是形式化方法难以、甚至不能描述的。因此，我们需要从脑认知机理和神经科学获得灵感和启发，发展新的AI计算模型与架构，让机器具备对物理世界最基本的感知与反应，即使机器具有“常识”推理的能力，从而实现更加健壮的人工智能系统。

我们要建造一种更加健壮的人工智能，需要脑认知和神经科学的启发。计算机和人类大脑是对问题求解的物质基础。在智力和计算能力方面，计算机远远超过了人类，但是人类面对的大部分问题都是开放的、动态的、复杂的，大脑在处理这种问题时表现出的想象和创造，还有对复杂问题的分析和描述，是传统人工智能的方法所不能企及的，我们只能够从人类大脑的神经网络结构中去获得构造新的人工智能的因素。

直觉推理

直觉和敏感都属于创造性思维，警察在破案中，靠的是多年积累和实践，形成的直觉判断。灵感、顿悟与直觉的区别是，直觉是对当前环境的反应，它在现在人工智能的发展中扮演着十分重要的角色。我们需要一种基于直觉的人工智能，也可以将它看成一种基于直觉的推理。

人的直觉反应实际上是寻找全局最优解。要构造直觉推理，需要连个关键因素：1.需要构造一个成本函数；2.需要给出一个决策结构，而这个决策结构就建立在记忆基础上。

人在观察事物时，一定会形成一种与时间相关的影像。如果把直觉推理和数学归纳演绎推理两类机制组合，就可以实现基于认知计算或受神经科学启发的人工智能。

认知推理

我们把认知推理称为直观、朴素的物理推理。物理层面的认知推理可以化解时间与空间，追踪事物的发展轨迹。认知推理的另一个要素在心理层面，简而言之就是学习方向受心理状态的引导。我们需要把物理层面和心理层面的推理嵌入到推理的人工智能系统中。

使机器像人一样对物理世界直观理解

实现物理层面认知推理的基本要素：

（1）物理（或对象）特征的识别，并形成长短期记忆

（2）物理（或对象）之间相互关系与作用的直观理解

（3）基于想象力的行为模型产生

关于物体（或对象）的关系和物理层面的直观推理是人类智力的核心，使机器像人一样对物理世界直观理解是人工智能追求的科学目标之一。

构造一个具体的人工智能系统

直觉推理、认知推理和因果模型是构建健壮的人工智能必须考虑的基本因素。那么如何来构造一个具体的系统？构造机器人需要三个基本要素：1.对环境中的所有对象进行特征识别，并且进行长期记忆；2.理出对象间的关系，并对它们相互间的作用进行描述；3.基于想象力的行为模型，人在进行具体行动之前，会想象其带来的后果，但机器就需要分析物体之间的各种关系。

这三种要素是让机器像人一样理解物理世界的基础。具有想象力的人工智能，就需要：

构造一个内部预测的模型，在行动之前预想到的结果；

给出环境模型，提取有用信息；

规划想象行为，最大化任务效率（具有想象力的AI）

用认知解决无人驾驶

我们在 2000 年初就开始做无人驾驶，有人说要把无人驾驶汽车和城市真实场景的车融合，我们还面临非常艰难的挑战，有相当长的路要走。车联网，V2X，V2V，都一样。在这种局部、动态的场景中，我们怎样让自动驾驶跟环境融合，确实是一个很大的问题。

无人驾驶技术的五大难题:

1.场景的“可靠感知”

无论何种路况或天气必须可靠地感知周围的场景

2.“预行为”理解

判断或理解交通场景中不同运动对象细微的预行为

3.“意外遭遇”的应对

解释异常情况，如交警的手势、意外的交通情境

4.“人—车的自然交互”

理解并回答乘客提出的请求，不是简单的“点到点的行驶”

5.网络安全

通过云端获取和更新地图使自主驾驶面临更大的风险

现在绝大多数自动驾驶采取了场景感知与定位，决策规划与控制，这是一种简单的 ADAS 形式，但我们要如何通过新的方法来解决这个问题？

场景感知与情境计算

场景是某个交互场合在特定时间和空间中的具体情境和影象，它可以定义为一种实体。情境是指这种实体随着时间和空间变化而产生的关联。情境计算是对场景各个关联的对象做解释，可以定义为一个行为相关体。

这里的问题就是，第一，要让自动驾驶汽车像人一样理解和记忆，就要具有记忆推理和经验分析的技术；第二就，进化发展的自动驾驶，其学习过程要像人类一样熟能生巧。

人类视觉关注的基本机制是选择、组织、整合、编码。

人对变化是非常敏感的，可以提取交通场景中的显著性变化。比如你在开车时，如果右前方突然来了一个骑自行车的人，你的注意力会转移到骑车人的身上。在自动驾驶汽车上，我们要构造一个选择性的注意机制网络，对数种图像进行理解，并根据内部状态的表示，忽略不相关的对象，选择下一步要采取的动作。

把场景感知和情景认知结合起来，需要我们构建一个模型，融合先进知识概念，实现记忆学习。

场景感知是将通过各种不同属性的传感器获得的不同数据，提供到深度学习中，之后再根据长短期记忆和定位网络，进行情境计算。在这种框架中，我们可以把场景感知和情境计算融合在一起。

一个高效的情景计算要运用实际情境的因果关联，在最前端的数据层面进行有效计算，这就需要把数据驱动变成事件驱动。人在开车时，根据情境判断前方可不可以行驶，这就是把数据驱动变成事件驱动。

怎么构造事件驱动？就是把可见光和激光点云数据融合在一起，把三维数据转化成二维图像数据。点云数据给出了每一个生物体的明确的点，二维图像没有深度信息，它是图像的几何形状变化。把人的数据和激光点云的数据融合，用数据驱动转变为事件驱动，就得出了可行驶数据和不可行驶数据大的划分。

人开车的时候，他在注意什么，我们就来构建一个类似的选择性基础，把同样的场景输入到一个深度学习网络中，通过深度学习网络提取特征和人的注意力。

实现复杂路况中无人驾驶的四个核心技术

1.如何在环境感知数据获取与融合过程给出知觉物体的基本判断，形成选择注意的基本单元；

2.如何在注意的基础上，将非完整的环境信息转化为用于决策规划的空间结构信息；知觉编组能用最少的领域只是形成目标假设;

3.如何在学习和知识集成的基础上，实时处理行驶过程中的突发事件，即具有自学习功能

4.如何在环境交互和行为决策的基础上，构建无人驾驶的控制系统

总结

大脑还有许多未解之谜，脑认知和神经科学研究的每一项真正的突破都伴随着艰难的历程。我们需要更多时间来发现受脑认知和神经科学启发的人工智能突破点在哪里？把研究建立在严谨的理论、模型建造、实验验证与分析的基础上。

新一代人工智能的发展离不开信息科学、认知科学、神经科学、数学等学科的共同进步，必须加强来自多学科的实验科学家和理论科学家的合作。

现代科学的进步往往是在新的思想和已有的成见之间精致平衡中实现的。面对人工智能研究与应用的热潮，需要保持冷静思考和踏实工作；期望值过高，又没有达到预期的目标，有可能会给学科发展带来的低潮甚至灾难性的后果，使最初的期望目标成为”皇帝的新衣“。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47242

浏览量
238355
无人驾驶

无人驾驶

+关注

关注
98

文章
4058

浏览量
120476

原文标题：郑南宁：直觉性AI与无人驾驶

文章出处：【微信号：IV_Technology，微信公众号：智车科技】欢迎添加关注！文章转载请注明出处。

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

将自然语言理解与运动规划融为一体。这种端到端的方法使机器人能够直接从人类指令生成动作序列，大幅简化了控制流程。该项目的工作流程包含设计并封装一个人机

发表于 12-24 15:03

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

提供了对机器人环境和动作的统一和详细的理解。只有在这些过程之后，数据才能有效地用于训练 EAI 系统。目前，应用 Sim2Real 技术的主要障碍是“现实差距”，即模拟环境与现实世界

发表于 12-24 00:33

【「具身智能机器人系统」阅读体验】+初品的体验

《具身智能机器人系统》一书由甘一鸣、俞波、万梓燊、刘少山老师共同编写，其封面如图1所示。本书共由5部分组成，其结构和内容如图2所示。该书可作为高校和科研机构的教材，为学生和研究人员提供系统

发表于 12-20 19:17

《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

Intelligence)这一概念有了深入理解。本书开篇和大部分书籍文章一样，都是立足宏观角度，先把视角引申到世界经济形势。书中阐述具身智能机器人

发表于 12-19 22:26

智能体已经能像人一样刷视频了？国内联汇科技OmAgent智能体试用！

智能体已经能像人一样刷视频了?国内知名大模型独角兽级别公司，资深AI玩家联汇科技退出了OmAgent智能体，已经开启试用。当你正在观看一部紧张刺激的动作电影,忽然好奇: “那个角

发表于 11-22 18:59 •130次阅读

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

。这些技术的综合应用使具身智能系统能够进行复杂的环境感知、决策制定和物理操作。例如，通过多模态感知技术，智能体能够综合视觉、听觉和触觉数据，更全面地理解和响应其所处的环境。具身智能通过提高

发表于 11-11 10:20

请问studio中可以像裸机一样调用定时器中断吗？

studio中可以像裸机一样调用定时器中断吗？我调用后显示出错了，使用hal库还需要添加什么吗

发表于 09-13 08:18

Stem32CubeIDE能像Keil一样指定不同文件下的代码编译吗？

Stem32CubeIDE能像Keil一样指定不同文件下的代码编译

发表于 07-23 06:22

黄仁勋:新一轮科技浪潮将是物理AI机器人的崛起

及感知能力。　　黄仁勋指出，现今许多AI系统对物理定律的理解尚浅，无法立足于现实世界。然而，生成图像、视频、3D图形乃至模拟物理现象，均需依赖能深刻

发表于 06-05 16:32 •662次阅读

AI需要理解物理,才能满足大众预期

若想实现AI满足大众期待，首要之事便是理解“物理”。　　当下一代AI需立足于物理法则，然而现如今众多AI模型对此却不甚了解，其运行并非基于物

发表于 06-04 15:25 •514次阅读

锰芯磁环电感尺寸一样性能也一样吗

电子发烧友网站提供《锰芯磁环电感尺寸一样性能也一样吗.docx》资料免费下载

发表于 06-03 14:52 •0次下载

stm8cube不能像stm32cube一样来自动生成工程吗？怎么操作？

stm8cube不能像stm32cube一样来自动生成工程吗？有知道怎么操作的吗？

发表于 05-07 08:01

未来之声 | 人形机器人说话篇：无声！

随着一个个有关人形机器人的“核弹式”新闻的出现，机器人技术肉眼可见地快速发展。或许，与人们预想的“像人一

发表于 04-13 08:00 •281次阅读

如何把外部SRAM像内部RAM一样分配变量？

各位大神，外部SRAM怎样配置才能像内部SRAM一样分配变量，要编译器分配。我使用的是GCC，SRAM现在可以读写，但是就是不知道怎么修改链接脚本和启动文件。

发表于 04-08 08:32

二维图片框在鼠标处滚轮缩放图片，像 CAD 一样，，

大家好，如何实现，二维图片框在鼠标处滚轮缩放图片，像 CAD 一样，，*附件：图片在鼠标处缩放.rar

发表于 01-07 21:02

搜索历史

如何使机器像人一样对物理世界直观理解？

评论

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

【「具身智能机器人系统」阅读体验】+初品的体验

《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

智能体已经能像人一样刷视频了？国内联汇科技OmAgent智能体试用！

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

请问studio中可以像裸机一样调用定时器中断吗？

Stem32CubeIDE能像Keil一样指定不同文件下的代码编译吗？

黄仁勋:新一轮科技浪潮将是物理AI机器人的崛起

AI需要理解物理,才能满足大众预期

锰芯磁环电感尺寸一样性能也一样吗

stm8cube不能像stm32cube一样来自动生成工程吗？怎么操作？

未来之声 | 人形机器人说话篇：无声！

如何把外部SRAM像内部RAM一样分配变量？

二维图片框在鼠标处滚轮缩放图片，像 CAD 一样，，