探讨机器学习、强化学习、NLP、计算机视觉最新进展

电子说

1.3w人已加入

描述

清华-谷歌AI学术研讨会,Jeff Dean、李飞飞、李佳等22位大牛齐聚,探讨机器学习、强化学习、NLP、计算机视觉最新进展。最近一张展示谷歌中国2018校招年薪56万的图片广为流传。谷歌的学术交流对中国AI来说无疑是好事,但或许这也将令国内本就激烈的AI人才争夺战进一步加剧。

在清华大学人工智能研究院的成立仪式上,清华-谷歌AI学术研讨会也揭开帷幕。这场研讨会是清华大学人工智能研究院打造人工智能高端交流平台的首次尝试,阵容豪华。在为期两天的时间表上,密集出现了多位数得过名字的大牛,以及众多有意思的主题:

Jeff Dean:深度学习解决世界难题

李飞飞:朝向AI辅助健康医疗的环境智能

李佳:企业AI:现实世界研究的新前线

Quoc Le:AutoML:使用机器学习自动化机器学习

Bill Freeman:用看来听:用视觉促进语音理解

Oriol Vinyals:人工智能的新挑战

……

实际上,这次研讨会一共设有5大主题版块,分别是机器学习、强化学习、计算机视觉、自然语言处理和行业中的AI研究。这样的主题设置,与谷歌AI中国中心的侧重方向十分吻合。

2017年12月,李飞飞在谷歌上海开发者大会上宣布谷歌AI中国中心的成立,并表示这个中心将更专注基础研究,侧重算法和模型层面,具体关注有四个方向,就是深度学习、强化学习、计算机视觉和语言。

李飞飞表示,谷歌AI中国中心的成立,是要“与中国最聪明的人工智能研究人员合作”,推动中国本土学术合作及人才培养,为更广大的学生及研究人员提供高质量 AI 及机器学习的教育支持。

这次的研讨会可以说是当初规划的落实。谷歌AI中国中心成立6个月之际,谷歌学术和技术大牛正组队走进中国的高校,带来他们最新的研究和成果,(从谷歌关注的角度出发)与中国学术界进行更多的心得交流。同时,也再次展示了谷歌的AI实力。

AI的发展离不开数据、人才和市场,这几点中国都有,而且有很多。中国也在大力发展AI,国务院印发《新一代人工智能发展规划》,工信部发布《促进新一代人工智能产业发展三年行动计划(2018-2020 年)》,中国的学术界、教育界和产业界正不断释放出对外开放的讯息,而谷歌无疑准确地领会并把握住了这一点。

尽管中美贸易战正酣,科技交流障碍提升,但谷歌这位美国巨头,正努力而切实地一步一步走进中国。

Jeff Dean:如果你还没考虑用深度学习,赶快用!

下面我们摘选几场报告进行介绍。

首先是谷歌AI总负责人Jeff Dean在研讨会第一天的主旨演讲,题目是《用深度学习解决世界重大挑战》。这也是Jeff Dean受聘成为清华大学计算机学科顾问委员会委员后的第一场演讲。

Jeff Dean发表主旨演讲:用深度学习解决重大挑战

过去6年来,Google Brain团队一直在研究人工智能中的难题,构建用于机器学习研究的大型计算机系统,并与Google的许多团队合作,将其研究和系统应用于众多Google产品当中。他们已经在计算机视觉,语音识别,语言理解,机器翻译,医疗保健,机器人控制等领域取得了重大进展。

谷歌在人工智能领域最终目标是三点:利用人工智能和机器学习让谷歌的产品更加实用(Making products more useful);帮助企业和外部开发者利用人工智能和机器学习进行创新(Helping others innovate);为研究人员提供更好的工具,解决人类面临的重大挑战。

演讲从深度学习热潮的兴起讲起:从2010年开始,深度学习的热度稳步上升,如今Arxiv上发表的机器学习论文增长趋势已经超过了摩尔定律。深度学习在图像和语音识别为代表的一系列任务中取得了越来越卓越的成果,这个概念和技术并不是全新的,但为什么在过去的几年当中实现了极大的突破?这一切都得益于计算力的提升,在有充分计算力的情况下,深度学习解决问题的精度将大幅超越传统方法。

在2008年美国工程院列出的14大“21世纪重大工程难题”中,有5项都能用到深度学习和机器学习,甚至用深度学习和机器学习去解决,包括环境问题、城市基础设施,健康医疗,以及人脑的逆向工程。Jeff Dean本人还加了两项,他认为不受语言限制获取信息和交流,以及构建灵活通用的AI系统也十分重要,而这两点也需要深度学习。

接下来,Jeff Dean重点介绍了一些Google Brain团队已经完成的研究和计算机系统工作,着眼于如何使用深度学习来解决具有挑战性的问题,来证明深度学习的有效性:

提高城市基础设施方面,Waymo的自动驾驶已经离实际应用越来越近。

在健康信息学方面,谷歌用深度学习分析糖尿病视网膜图像,算法的准确率已经超越了人类医生;不仅如此,使用深度学习视网膜图像分析来预测心血管疾病突发风险,获得人体解剖学和疾病变化之间的联系,这是人类医生此前完全不知道的诊断和预测方法,不仅能帮助科学家生成更有针对性的假设,还可能代表了科学发现的新方向。此外,谷歌还与顶级医学院合作使用深度学习分析电子病例,预测患者预后等情况,已经取得了不错的初步成果。

促进跨语言的交流和信息共享,有谷歌的神经机器翻译(GNMT),GNMT在多个语种的翻译上平均质量提高50%到80%以上,超过了过去十年的进展,而且谷歌还开放了基于TensorFlow的源代码。Jeff Dean特别提到,谷歌的目标是一百多种语言对之间相互翻译,这是一个非常复杂的工程问题,使用同一个基于神经网络的模型去翻译不同的语种,在工程上大大简化了工作量。

在人脑逆向工程方面,谷歌和马克思普朗克研究所等机构合作,从理解大脑神经网络的图像入手,重构生物神经网络。目前,使用马克思普朗克研究所的数据,研究人员已经生成了大约6000亿个体素。他们还提出了一种模拟生成神经网络的算法“Flood Filling Networks”,可以使用原始数据,利用此前的预测,自动跟踪神经传导。

其他还有使用深度学习预测分子性质,制作更好的药物,开发碳封存方法,管理氮循环……这些问题都能够在更好的科学工具的帮助下实现。而这个帮助科学工具开发的工具,就是谷歌深度学习开源框架TensorFlow:TensorFlow的目标是成为每个人都可以使用的机器学习平台,成为通用的平台,成为最好的平台,去更好的促进行业交流和创新。

计算机视觉

TensorFlow是目前全球最受欢迎的深度学习框架,在中国也有强劲的开发者生态。此前一位参与TensorFlow开发的中国开发者告诉新智元,他认为谷歌推广TensorFlow不是为了赚钱,而是很纯粹的为了技术。“2017年以前,谷歌并没有在中国展开太多活动。尽管谷歌知道中国市场很大,但很多业务无法展开。即使谷歌的云业务服务器能在中国大陆运行,但是由于阿里巴巴等本土竞争对手也在销售便宜的云计算产品,这使得谷歌难以盈利。但是,我们所有的中国开发者都在等待谷歌来中国,推出更多TensorFlow技术和产品。”

谷歌当然明白这一点,而包括这次研讨会在内的众多高校活动,将进一步把TensorFlow的用户人群拓展到学生里面。

最后,这位谷歌AI的总负责人号召大家都使用深度学习:“深度神经网络和机器学习取得的重大突破,正在解决世界上一些最为重大的挑战;如果你还没有考虑使用深度学习,我几乎可以肯定你应该马上这么做!”

李飞飞:让机器理解人类行为,提供医疗环境智能

从五六年前,AI还远远没有如今这样火热的时候,李飞飞就开始了在AI医疗健康方面的探索,这也是一贯侧重基础研究的她在应用方面迈出的一步。

健康医疗关乎人类生命和生活质量,包括中美在内,任何国家政府每年都会在这里投入大量的资金和人力资源。如今,AI已经开始影响医疗领域,包括电子病例处理,医学图像和基因组学分析。

李飞飞在清华-谷歌AI学术研讨会上发表主旨报告

医疗健康的一大痛点,是由人类过失引发的医疗事故,每年导致的死亡人数比车祸死亡人数还多。但在很大程度上,在医疗保健服务发生的物理环境,也就是医院、诊所和养老院等医生护士与病人实际接触的场景,正是人为事故多发的地方,还较少有AI的参与。

以往的应对措施都是局部的,单独的针对每一个问题,比如病患可能滚下床,就设置护栏,有感染的可能,就督促医护人员使用消毒液……但是,这样的方案无法扩展。

大约在5年前,李飞飞和她在斯坦福的学生和同事们从自动驾驶汽车中得到启发——自动驾驶汽车的传感器收集各种数据,对周围环境进行感知并做出规划,如果能把这种模式用于医疗当中,将AI置于环境里,识别环境中所有人的行动,将打开一条不同的AI辅助医疗健康之路。

这也是她在清华-谷歌AI学术研讨会分享的内容《AI辅助医疗空间里的环境智能》(Towards ambient intelligence in AI-assisted healthcare spaces),李飞飞对“以人为本的AI”的最新实践。

她和同事们将计算机视觉和机器学习相结合,在医院和养老设施里设置大量传感器采集数据,借助先进的算法和数据传输及处理手段,提供医疗环境智能,从而帮助临床医护人员进行复杂护理。

“环境智能无处不在,但人却几乎感知不到它的存在,就像房间里的光线一样。”

这项研究的关键,是对人类行为的视觉理解,也是计算机视觉的核心问题。

在演讲中,李飞飞分三方面介绍了医疗环境智能:感知、人类行为识别和整个生态的构建。在感知方面,李飞飞介绍了他们AI辅助医疗空间的试点实施情况,使用深度和红外传感器采集数据,以及跨传感器追踪,将各种传感器的数据汇集在一起整合出一个3D空间。有些时候只能在天花板安装摄像头,从上往下俯视,与YouTube视角很不一样,对处理提出很大挑战。

在人类行为识别方面,他们使用深度学习方法,对人类活动进行密集和详细的识别,进行有效的动作检测。李飞飞举了这样一个例子,使用现代计算机视觉技术,结合传感器来改善医护人员的洗手情况。感染是医院致死率最高的原因之一,过去的解决办法是让真人去看医生护士有没有洗手,这样很容易出错,成本也高。他们使用行为检测和跟踪方法,督促医护人员洗手,取得了比多个人类检测员更好的效果。

洗手检测:超越了多个人类检测员联合监督的效果

研究人员的目标是,将ICU里的所有行为都识别出来,关注视频在时序空间上的数据,辅助医护人员工作。

此外,李飞飞还介绍了将医疗信息整合到更广泛的临床数据生态系统中的工作和未来方向。由于情况所迫,我们无法收集特定的医疗大数据,比如各种跌倒、受伤乃至死亡的图像。因此,需要在无法得到大数据的前提下工作。目前,李飞飞和同事使用迁移学习,将医疗信息加入到YouTube视频生成相关数据,取得了不错的初步结果。

李佳:企业AI,用有限的数据解决现实问题

谷歌云AI研发主管,同时也是谷歌AI中国中心总裁的李佳做了企业AI的报告,分享了利用AI解决现实世界问题的一些案例。

研究企业AI的背景是,企业环境提供了很多AI研究课题。一般的印象是,产业界有很多的数据,但实际上,比如在健康医疗、罕见疾病、自然灾害等情景下,就没有足够多的数据,无法进行大数据研究。

此外,现实世界还有很多充满噪音、未标记的数据。相比之下,在学术界研究里,常常使用的是干净、充分标记的数据。因此,学术界的成果往往无法很好地迁移到现实应用中。不仅如此,学术界的成果往往是预测就行了,而现实应用需要对结果进行解释,尤其是涉及医疗、法律等问题。

李佳分享了目前正在积极展开研究的领域,包括主要是从噪音数据中学习、可解释的机器学习以及迁移学习。

李佳重点介绍了一项她和谷歌其他同事与雪城大学、平安科技合作的研究,对胸部疾病诊断和定位的案例。相关论文已经在CVPR 2018发表。

胸部疾病是很严重的问题,有大约10%的病人会死亡,而放射科医生的诊断中有4%含有重大错误,如何解决这个问题?

在计算机视觉相关的研究中,准确识别和定位放射图像中的异常是临床诊断和治疗计划中不可或缺的一部分。但是,为这些任务构建高度准确的预测模型通常需要大量手动标注标签并找到异常位置的图像,注释数据的获取成本很高。

他们这项工作的意义在于,只需要少量的位置注释,并且还为放射科医生提供可以解释的AI诊断结果,这样医生就能将这些信息整合,得出更好更全面的诊断和治疗意见。

他们提出了一个统一的方法,同时进行疾病识别和定位。他们的方法在patch level而不是图像level进行分类和识别,能够有效地利用类信息以及有限的位置注释,并且在分类和本地化任务中都显着优于比较参考基线。

Bill Freeman:用视觉信息促进语音理解

第二天的主旨演讲人是谷歌研究科学家、MIT教授Bill Freeman,题目是《用看来听:通过视觉促进语音理解》。

人类在识别和理解人类语音方面有着极强的能力,哪怕是好几个人同时间在嘈杂的环境中说话,也能分清楚谁在说什么。对于计算机而言,这个任务还很艰巨。

最近,Freeman教授的团队通过让计算机“看”,也即观察说话者来辅助语音识别,大幅提升了计算机语言识别的性能。实际上,这也是人类在语音识别时常常采用的方法。他们的研究论文“Looking to Listen at the Cocktail Party”,已经被SIGGRAPH 2018接收。

这项研究的起点,是MIT的研究人员发现,视频信息实际上可以充当一种“视觉麦克风”。一袋放在桌上的薯片,在旁边播放音乐,观察高速摄像头拍摄下的薯片包装袋,能发现包装袋在颤动,从而推理出音频信息。

在此基础上,Freeman教授带领的Google Research团队,通过计算生成视频,使用视觉信息,加强其中特定人物的语音,同时抑制其他的所有声音。这个方法适用于带有单个音频轨道的普通视频,用户需要的只是选择他们想要听的视频中人物的脸部,或者根据上下文在算法上选择这样的人物就行了。

他们设计了一种算法,输入有两个及更多人同时说话的视频,算法能够输出其中被选定的那个人的音频,非常清晰。

“鸡尾酒效应”论文提出的基于神经网络的多数据流架构

他们把这种技术成为Looking to Listen,在语音识别、会议转录和视频会议等场景中,有着巨大的应用潜力。

除了“从看到听”,在更早一些的时候,Freeman教授的团队还做了“从听到看”的研究,也即从声音中学习画面(Learning Sight from Sound)。在一项工作中,他们表明环境声音可以用作学习视觉模型的监督信号。他们训练了一个卷积神经网络来预测与视频帧相关的声音的统计汇总,网络学会了关于某个物体(对象)和场景有关声音信息的表示。

结果发现,具有类似声音特征的视频,比如海边和河边,虽然视觉信息非常不同,但在网络学会的声音信号空间中,却是十分类似的。

通过这个过程,网络学会了关于某个物体(对象)和场景有关声音信息的表示。实验结果显示,这种方法的性能与其他最先进的无监督学习方法相当。

图像是声音的补充,从一种模态(比如图像)中能够得到一些很难或者无法从另一种模态(比如语音)分析中得到的信息。反之也一样。通过这样将视觉和语音信号相结合,能够彼此促进。此外,如果能够确定哪些视觉信号能在训练过程中帮助检测特定的声音信号,将进一步提升语音识别的效果。

中国学术界、产业界对外开放,谷歌把握机会多手段积极返华

如今,AI的发展离不开数据、人才和市场,而中国拥有最丰富的大数据、最大的市场需求以及越来越成熟的AI人才。

谷歌当然意识到了这一点,这家以“AI First”为战略的公司,除了成立AI中国中心,已经通过学术合作、企业投资、建立联合实验室等多种手段,曲线回归中国市场,其存在感也愈发强烈。

5月31日,谷歌在上海与复旦大学签署两年期合作协议,宣布成立复旦大学-谷歌科技创新实验室,建立战略合作关系。基于此次签署的协议,谷歌将重点支持复旦大学在人工智能、数据科学、移动应用等新兴科技领域的课程和创新科技联合实验室建设,促进复旦建设发展新工科,推动实施创新创业教育改革,培养拔尖创新人才。

6月18日,谷歌宣布以5.5亿美元的现金投资京东,获得后者0.93%的股权,双方达成战略合作,结合京东的物流、供应链优势与谷歌的技术优势,共同开发零售基础设施, 提供更好地个性化购物体验,并减少包括东南亚在内的多个市场的摩擦。

实际上,京东已经是谷歌(Alphabet)在过去3年里在中国投资的第5家公司。根据公开资料,其他4家分别是:2015年,投资出门问问;2017年12月,领投直播平台触手,金额5亿人民币;2018年1月,跟投AI医药研发公司晶泰科技;2018年4月,Alphabet旗下基金CapitalG投资中国公路物流互联网平台满帮集团,资金超过9亿美元。

这几家公司都是在AI领域不同赛道快速发展且相对处于领先地位的公司,通过对它们的战略性投资,谷歌在输出技术和服务、共享资源的同时,也能更好地理解中国市场,为其以更灵活的方式重返中国大陆铺桥搭路。

中国大力推动AI发展,国务院印发《新一代人工智能发展规划》,工信部发布《促进新一代人工智能产业发展三年行动计划(2018-2020 年)》,中国的学术界、教育界和产业界正不断释放出对外开放的讯息,而谷歌无疑准确地领会并把握住了这一点。

尽管中美贸易战正酣,科技交流障碍提升,但谷歌这位美国巨头,正努力而切实地一步一步走进中国。

进一步激化人才争夺战:谷歌中国人工智能岗位校招年薪56万

对于中国的AI人才来说,谷歌的一系列交流互动,绝对是一个非常强大的吸引和有力的帮助,但同时,这也让中国国内本来就非常激烈的AI人才争夺战进一步加剧,中国的科技公司,哪怕是BATJ等巨头,要吸引人才也将更具挑战。

恰逢大学秋招之际,一份2018届互联网校招高薪清单在网上广为流传,引发众多毕业生及互联网从业者关注。其中,谷歌中国人工智能岗位的薪资,以年薪56万人民币的价格高居榜首。

本来就已经水涨船高的AI研究人员和工程师价格,还会再高吗?

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分