本文分析了国内外AI芯片的格局和特点,作者认为,在AI芯片领域,国外芯片巨头占据了绝大部分市场份额,不论是在人才聚集还是公司合并等方面,都具有绝对的领先优势。而国内AI初创公司则又呈现百家争鸣、各自为政的纷乱局面;特别是每个初创企业的AI芯片都具有自己独特的体系结构和软件开发套件,既无法融入英伟达和谷歌建立的生态圈,又不具备与之抗衡的实力
如果说 2016 年 3 月份 AlphaGo 与李世石的那场人机大战只在科技界和围棋界产生较大影响的话,那么 2017 年 5 月其与排名第一的世界围棋冠军柯洁的对战则将人工智能技术推向了公众视野。阿尔法狗(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序,由谷歌(Google)旗下 DeepMind 公司戴密斯 · 哈萨比斯领衔的团队开发,其主要工作原理是 “深度学习”。
国内AI芯片百家争鸣,何以抗衡全球技术寡头
其实早在 2012 年,深度学习技术就已经在学术界引起了广泛地讨论。在这一年的 ImageNet 大规模视觉识别挑战赛 ILSVRC 中,采用 5 个卷积层和 3 个全连接层的神经网络结构 AlexNet,取得了 top-5(15.3%)的历史最佳错误率,而第二名的成绩仅为 26.2%。从此以后,就出现了层数更多、结构更为复杂的神经网络结构,如 ResNet、GoogleNet、VGGNet 和 MaskRCNN 等,还有去年比较火的生成式对抗网络 GAN。
国内AI芯片百家争鸣,何以抗衡全球技术寡头
不论是赢得视觉识别挑战赛的 AlexNet,还是击败围棋冠军柯洁的 AlphaGo,它们的实现都离不开现代信息技术的核心——处理器,不论这个处理器是传统的 CPU,还是 GPU,还是新兴的专用加速部件 NNPU(NNPU 是 Neural Network Processing Unit 的简称)。在计算机体系结构国际顶级会议 ISCA2016 上有个关于体系结构 2030 的小型研讨会,名人堂成员 UCSB 的谢源教授就对 1991 年以来在 ISCA 收录的论文进行了总结,专用加速部件相关的论文收录是在 2008 年开始,而在 2016 年达到了顶峰,超过了处理器、存储器以及互联结构等三大传统领域。而在这一年,来自中国科学院计算技术研究所的陈云霁、陈天石研究员课题组提交的《一种神经网络指令集》论文,更是 ISCA2016 最高得分论文。
国内AI芯片百家争鸣,何以抗衡全球技术寡头
在具体介绍 AI 芯片国内外之前,看到这里有部分读者或许会产生这样的疑惑:这不都是在说神经网络和深度学习吗?那么我觉得有必要对人工智能和神经网络的概念进行阐述,特别是 2017 年工信部发布的《促进新一代人工智能产业发展三年行动计划(2018-2020 年)》中,对发展目标的描述很容易让人觉得人工智能就是神经网络,AI 芯片就是神经网络芯片。
人工智能整体核心基础能力显著增强,智能传感器技术产品实现突破,设计、代工、封测技术达到国际水平,神经网络芯片实现量产并在重点领域实现规模化应用,开源开发平台初步具备支撑产业快速发展的能力。
其实则不然。人工智能是一个很老很老的概念,而神经网络只不过是人工智能范畴的一个子集。早在 1956 年,被誉为 “人工智能之父” 的图灵奖得主约翰 · 麦卡锡就这样定义人工智能:创造智能机器的科学与工程。而在 1959 年,Arthur Samuel 给出了人工智能的一个子领域机器学习的定义,即“计算机有能力去学习,而不是通过预先准确实现的代码”,这也是目前公认的对机器学习最早最准确的定义。而我们日常所熟知的神经网络、深度学习等都属于机器学习的范畴,都是受大脑机理启发而发展得来的。另外一个比较重要的研究领域就是脉冲神经网络,国内具有代表的单位和企业是清华大学类脑计算研究中心和上海西井科技等。
国内AI芯片百家争鸣,何以抗衡全球技术寡头
好了,现在终于可以介绍 AI 芯片国内外的发展现状了,当然这些都是我个人的一点观察和愚见,管窥之见权当抛砖引玉。
国外:技术寡头,优势明显
由于具有得天独厚的技术和应用优势,英伟达和谷歌几乎占据了人工智能处理领域 80% 的市场份额,而且在谷歌宣布其 Cloud TPU 开放服务和英伟达推出自动驾驶处理器 Xavier 之后,这一份额占比在 2018 年有望进一步扩大。其他厂商,如英特尔、特斯拉、ARM、IBM 以及 Cadence 等,也在人工智能处理器领域占有一席之地。
国内AI芯片百家争鸣,何以抗衡全球技术寡头
当然,上述这些公司的专注领域却不尽相同。比如英伟达主要专注于 GPU 和无人驾驶领域,而谷歌则主要针对云端市场,英特尔则主要面向计算机视觉,Cadence 则以提供加速神经网络计算相关 IP 为主。如果说前述这些公司还主要偏向处理器设计等硬件领域,那么ARM 公司则主要偏向软件,致力于针对机器学习和人工智能提供高效算法库。
注:上述表格中所给为截止到 2017 年各研制单位公开可查的最新数据。
独占鳌头——英伟达
在人工智能领域,英伟达可以说是目前涉及面最广、市场份额最大的公司,旗下产品线遍布自动驾驶汽车、高性能计算、机器人、医疗保健、云计算、游戏视频等众多领域。其针对自动驾驶汽车领域的全新人工智能超级计算机Xavier,用 NVIDIA 首席执行官黄仁勋的话来说就是 “这是我所知道的 SoC 领域非常了不起的尝试,我们长期以来一直致力于开发芯片。”
国内AI芯片百家争鸣,何以抗衡全球技术寡头
Xavier是一款完整的片上系统 (SoC),集成了被称为 Volta 的全新 GPU 架构、定制 8 核 CPU 架构以及新的计算机视觉加速器。该处理器提供 20 TOPS(万亿次运算 / 秒)的高性能,而功耗仅为 20 瓦。单个 Xavier 人工智能处理器包含 70 亿个晶体管,采用最前沿的 16nm FinFET 加工技术进行制造,能够取代目前配置了两个移动 SoC 和两个独立 GPU 的 DRIVE PX 2,而功耗仅仅是它的一小部分。
而在 2018 年拉斯维加斯 CES 展会上,NVIDIA 又推出了三款基于 Xavier 的人工智能处理器,包括一款专注于将增强现实(AR)技术应用于汽车的产品、一款进一步简化车内人工智能助手构建和部署的 DRIVE IX 和一款对其现有自主出租车大脑——Pegasus 的修改,进一步扩大自己的优势。
产学研的集大成者——谷歌
如果你只是知道谷歌的 AlphaGo、无人驾驶和 TPU 等这些人工智能相关的产品,那么你还应该知道这些产品背后的技术大牛们:谷歌传奇芯片工程师 Jeff Dean、谷歌云计算团队首席科学家、斯坦福大学AI实验室主管李飞飞、Alphabet 董事长 John Hennessy 和谷歌杰出工程师 David Patterson。
时至今日,摩尔定律遇到了技术和经济上的双重瓶颈,处理器性能的增长速度越来越慢,然而社会对于计算能力的需求增速却并未减缓,甚至在移动应用、大数据、人工智能等新的应用兴起后,对于计算能力、计算功耗和计算成本等提出了新的要求。与完全依赖于通用 CPU 及其编程模型的传统软件编写模式不同,异构计算的整个系统包含了多种基于特定领域架构(Domain-Specific Architecture, DSA)设计的处理单元,每一个 DSA 处理单元都有负责的独特领域并针对该领域做优化,当计算机系统遇到相关计算时便由相应的 DSA 处理器去负责。而谷歌就是异构计算的践行者,TPU 就是异构计算在人工智能应用的一个很好例子。
2017 年发布的第二代 TPU 芯片,不仅加深了人工智能在学习和推理方面的能力,而且谷歌是认真地要将它推向市场。根据谷歌的内部测试,第二代芯片针对机器学习的训练速度能比现在市场上的图形芯片(GPU)节省一半时间;第二代 TPU 包括了四个芯片,每秒可处理 180 万亿次浮点运算;如果将 64 个 TPU 组合到一起,升级为所谓的 TPU Pods,则可提供大约 11500 万亿次浮点运算能力。
计算机视觉领域的搅局者——英特尔
英特尔作为世界上最大的计算机芯片制造商,近年来一直在寻求计算机以外的市场,其中人工智能芯片争夺成为英特尔的核心战略之一。为了加强在人工智能芯片领域的实力,不仅以 167 亿美元收购 FPGA 生产商 Altera 公司,还以 153 亿美元收购自动驾驶技术公司 Mobileye,以及机器视觉公司 Movidius 和为自动驾驶汽车芯片提供安全工具的公司 Yogitech,背后凸显这家在 PC 时代处于核心位置的巨头面向未来的积极转型。
Myriad X就是英特尔子公司 Movidius 在 2017 年推出的视觉处理器 (VPU,vision processing unit),这是一款低功耗的系统芯片 (SoC),用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和 VR / AR 头盔。Myriad X 是全球第一个配备专用神经网络计算引擎的片上系统芯片(SoC),用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块,专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计,让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后,Myriad X 架构能够为基于深度学习的神经网络推理提供 1TOPS 的计算性能。
-
AI
+关注
关注
87文章
30898浏览量
269140 -
人工智能
+关注
关注
1791文章
47282浏览量
238537
发布评论请先 登录
相关推荐
评论