游戏AI的前世今生,完美的目标不完美的世界

zhKF_jqr_AI 2018-08-28 3101

电子说

1.3w人已加入

描述

编者按：如果有一天AI能征服世界，那近日OpenAI Five在Dota2国际邀请赛的表现一定会被钉在耻辱柱上：接连两天，它们先是输给了本届大赛上最先出局的职业队伍之一，之后又输给了技术已不复当年的退役选手。更凄凉的是，这不是势均力敌的对抗，而是人类对机器的单方面调戏和虐杀……

近两年，世界上最前沿的AI系统已经开始抛弃人类经验，依靠自学从零开始逐渐成长，其中最典型的是DeepMind的AlphaZero，它能在短短8小时内就从一无所知的“婴儿”成长为精通围棋、将棋和国际象棋的顶级大师。

但研究人员还在努力，他们希望能把这个成果扩展到游戏以外的领域。

游戏AI的前世今生

在DeepMind的围棋AI出现以前，如果机器想打败人类，它们至少还得尊重人类积累下的经验。

1997年，为了击败当时的国际象棋冠军Garry Kasparov，IBM的工程师们准备了几个世纪的国际象棋资料，这也是超级计算机“深蓝”能获胜的主要原因。

但现在，这种穷举法已经过时了。研究人员正在重新思考用机器整合人类知识的方式，而目前的主流趋势是：不要插手。

是的，人类选择尊重AI的学习自主性。去年10月，DeepMind团队发布了一个新的棋类AI：AlphaGo Zero。它无需任何人类资料数据，只要给出游戏规则，它就能自我博弈，不断进步。AlphaGo Zero的第一次尝试是完全随机的，在每场比赛结束后，它都会对所取得胜利和未取胜的新知识进行总结。经过训练，最后这个AI和曾击败过李世石的AlphaGo直接对决，以100比0拿下了彻底的胜利。

紧接着，在去年12月，精通三种棋类游戏的AlphaZero在比赛中击败AlphaGo Zero，把刚登上最佳围棋AI宝座的后者赶了下去。之后，DeepMind宣布棋类项目正式终止，但这系列AI给社会带来的巨大震动却迟迟无法平息。在AI咄咄逼人、别创一格的棋风中，人类第一次对机械“智慧”感到惊奇。

2016年，李世石与AlphaGo的对决

除了围棋，自学AI在***、Dota2上也开始崭露头角。以Dota2为例，去年，OpenAI的强化学习bot在中路solo中击败职业选手Dendi，赢得众人瞩目。而今年，他们又推出5人团队OpenAI Five，这些AI已经可以在比赛中击败业余玩家，并且据称天梯分在6000以上。虽然在Ti8上连输两局，提前“淘汰”，它们的进步之大还是有目共睹的。

但游戏并不是这些实验室，以及实验室背后的投资机构的唯一目标，他们有更大的野心。DeepMind希望把类似方法用于构建室温超导体、把蛋白质折叠成药物分子等现实问题。OpenAI也曾直言开发这类技术是出于现实场景需要，至于瓜分奖金池里的2500万美金，这在宏图大志面前只是个微不足道的“小目标”。

当然，他们中也有一帮人只是想单纯实现“人工智能”，让机器人能像人一样思考，并对不同类型的问题作出多种选择——这个定义不明的目标确实令人着迷。

机器学习领域是近年来的吸金热门，尽管无数人在这些AI系统中进行了投资，但我们目前还不清楚这种技术能走多远。按照华盛顿大学计算机科学家佩德罗·多明戈斯的说法：“我不确定这种想法是否能被推广，游戏和现实是两个世界。”

完美的目标，不完美的世界

许多游戏，比如国际象棋和围棋，它们的一个共同特点是玩家随时可以观察棋盘上双方棋子的位置，也就是玩家是站在全知视角的，他们掌握着游戏状态的“完美信息”。在这种情况下，无论棋局多复杂，他们要做的就是结合看到的场景进行思考。

但现实并非如此，大多数现实世界的战略互动都会涉及隐藏信息，比如用机器诊断疾病或进行商务谈判。

Dota2的视野是受限的。在游戏中，地图本身是黑的，只能靠英雄、建筑和侦查守卫提供一定视野，这就意味着AI要根据不完整的数据信息进行推断，同时预测双方英雄的发育进度。在这两场比赛中，可以发现AI的发挥很大程度上需要依赖视野，当敌方走进树林阴影后，它们不会预判对方走位，大多数时候都选择放弃追杀。

而这种不完全信息在星际2里就更突出了。这是一款非常考验操作和战略意识的游戏，玩家需要培养自己的部队进行作战，目标是拆光敌方大本营。但是，整片战场从头到尾会一直笼罩在阴影中，玩家只能依靠己方建筑和部队获得一定视野。加上地图很大，即便只是派小兵去侦查，侦查结果也会充满不确定性。

从DeepMind放出下一个目标是星际2的豪言后，他们就再没有公布任何突破性进展。过大的动作空间、过快的推进节奏，每个玩家——无论是人类还是机器——在点下鼠标的一刹那，都要担忧未来的一系列可能性。

有明确目标的任务：训练小人在陌生环境中前进

尽管面临挑战，星际2还是有一个简单明确的目标：消灭你的敌人。这和围棋、国际象棋、Dota2等游戏都一样。因此从算法角度看，这类游戏就可以设置一个“目标函数”，用它定义自己的目标。

但现实生活中的情况并非如此简单。比如自动驾驶汽车需要更细致的目标，它的目标不仅是到达目的地，也不是规划最佳路线，在行驶过程中，它的任务是多元的：把乘客送至正确地点、遵守交通法规、在意外情况下保障行人安全……

面对复杂问题如何设计目标函数，这是区别普通研究员和机器学习研究员的一个关键。

最大的敌人是自己

虽然世界一直在变，但有些事也一直没有改变，比如现在主导游戏AI的算法，它们其实是几十年前的产物。多伦多大学的计算机科学家大卫杜文德认为：“这基本上就是以往积累的一次大爆炸，让过去的算法更广为人知。”

无论是围棋、国际象棋还是Dota2，AI的策略都依赖强化学习，我们之前说过，这是一种“人类不干预”的方法，研究人员不会对具有详细指令的算法进行微观管理，而是让机器探索环境并通过反复试验来学习如何达到目标。

事实上，在AlphaGo及其后代出现以前，DeepMind团队就已经凭借雅达利游戏上过一次头条。2013年，他们开发除了一个会玩7种雅达利游戏的AI，并证明它能在三个游戏上能击败人类顶级玩家。

这一研究进展现在还在继续。今年2月5日，DeepMind发布了IMPALA，一个可以学习57个雅达利2600游戏的AI系统，其中还包括他们设置的30个等级。在这些游戏中，AI玩家们在不同环境中漫游，完成开门、采蘑菇等目标。这个系统的价值在于让AI学会游戏与游戏之间的共同经验，从而减少学习用时。

然而，这种自我探索、自我博弈的想法可以追溯到几十年前。在20世纪50年代，IBM工程师Arthur Samuel创建了一个跳棋游戏程序Checkers，它具备自学习和自适应能力，能在下棋过程中不断积累所获得的经验。在20世纪90年代，同样是IBM，Gerald Tesauro将算法和其自身对立起来了，发现这样做的效果能让机器在游戏中超出人类水平。

它背后的核心思想就是由策略不同导致结果不同，从而为算法提供即时反馈。“无论什么时候你学到了东西，哪怕只是一小点经验，你的对手就会马上用它来对付你。”这是去年影魔和Dendi中路对线时，OpenAI的研究主管Ilya Sutskever说过一句话。

在自我博弈游戏中，你永远不能休息，你必须一直改善。

但是，自我博弈只是当今主流游戏AI的一个组成部分，它还需要一种方法将游戏体验转化为更深层次的理解。比如在Dota2中，AI需要总结出使自己更易于获胜的战术，它们可以和人类总结的经验一致：每路都有英雄占线、抱团推塔、gank、刷钱，掐点抢神符……也可以是区别于人类的一些东西：前期给辅助更多经验和钱。

要做到这一点，就不得不提这些年来热度持续飙升的深层神经网络。它由一系列层组成，每层包含大量人造神经元。当信号触发某一层中的神经元时，它们会把信号层层传递下去，直到最终生成输出。而为了保证输出的准确性，网络需要大量训练样本。

这就是自我博弈能和它很好地融合在一起的原因。自我博弈可以产生大量的游戏数据，为神经网络提供理论上无限量的自学样本。反过来，深层神经网络提供了一种内化经验和模式的方法。

但这里还是有一个问题，这种由自我博弈生成的数据，它们在模拟环境中可能非常完美，但在现实场景下就不一定了。

比如OpenAI之前推出的五指机器人手Dactyl，这只手能用手指转动手中的方块，最高记录是保持连续转动50次不掉落。它之所以成为一个“重磅新闻”，是因为现在的机器人手往往在模拟时非常灵巧，但在现实中连基本抓握都很难实现，更别提拧瓶盖、使用螺丝刀这样的操作了。

对于难以模拟的问题，自我博弈的用处并不大。按蒙特利尔大学深度学习的先驱Yoshua Bengio的话讲，就是：“真正完美的环境模型与模型学到的东西之间存在巨大差异，尤其是在现实情况十分复杂的情况下。”

洗去“炒作”的铅华

在上文中，我们已经给出了为什么游戏AI在现实中一无所用的两个原因：

游戏环境是完美的，现实环境是复杂多变、信息不完整的，它们非常不同。

自我博弈是一个无休无止的过程，而且它对于难以模拟的现实问题用处不大。

下面我们来谈第三个，也是最后一个。

这么多年来，机器已经在很多领域展现出了可以媲美人类的“智能”，比如国际象棋的“深蓝”，棋类游戏的AlphaZero，或是Dota2的OpenAI Five。但脱去炒作和吹嘘后，它们对现实世界的实质性作用是什么？

我们以在智力问答节目中“智商碾压人类”的IBM Watson为例。这是AI中最贴近人类生活的，多年来它一直在医疗界默默奉献，针对病人研究和设计个性化的癌症治疗方法。但在IBM向世界各地的医院推广这个方案的三年后，全球采用这个系统的医院只有几十家，而且这种方法并没有IBM预期的那么好用。

更有甚者，在上个月，Watson被爆出惊天丑闻，有医疗机构称AI给出的用药建议会导致严重出血的癌症病人出血更加严重。考虑到这个系统已经辅助84000名患者治疗，这样的事件将严重打击人们对AI的信任。

这是因为AI作出判断不需要太多常识性知识，而培养一个医生是建立在阅读大量医学文献和进行大量的基础研究的基础上的。

虽然基于强化学习的AI能搜索巨型空间，也可能在自然语言处理上作出一些突破。但如果我们的最终目标是让机器像人一样“智能”，那么现如今的自我博弈AI还有很大的上升空间。

至少在我看来，目前AI展现出来的东西和真正的思维活动、思想的创造性探索还存在巨大差距。人们期望的“智能”是存在的，但它主要在伟大的AI研究人员的脑海中。——MIT认知科学家Josh Tenenbaum

现在的AI还不足以称之为AI，在现实场景下，一些非常简单、专业的工具可能实用性更强。

打开APP阅读更多精彩内容