新冠肺炎疫情对人们的工作、消费方式均产生巨大影响,但同时提振在线教育、远程办公、远程政务、在线游戏、生鲜采购等一系列需求。
未来将有更多行业向云上迁移,加速各行业线上化、云化过程,带动服务器市场增长。受下游需求变化影响,服务器市场正在发生的结构性变化不容忽视,例如产品高端化、AI化成为确定性的趋势。
AI服务器成为服务器厂商竞争焦点
回顾2019年服务器市场,全球范围内表现欠佳。不过,AI的兴起给整个行业带来了生命力,AI服务器将成为服务器厂商未来的竞争点。
对算力的渴求+海量数据爆发成为当前AI服务器崛起的主要驱动因素。一方面,大多数 AI 算法需要大量的数据和算力来完成任务,依靠云服务来执行计算;另一方面,在提供智能云体验上,由 AI 驱动的解决方案将决定企业能否在 AI 时代快速占领制高点。
目前,
在中国的AI服务器市场,浪潮的市场占有率最大,占据约50.2%的市场份额,华为位居第二,约占15.7%,曙光以7.8%位居第三(数据来源于IDC 2019H1 PRC AI Infrastructure Tracker)。包括浪潮、华为、曙光、新华三、戴尔等在内的主流OEM、ODM厂商均有不止一款的AI服务器。
浪潮目前推出的AI服务器主要包括AGX-5、AGX-2、NF5488M5、NF5468M5、NF5280M5以及NF5280M5-V。其中,AGX-5单机可以配置16颗NVIDIA Tesla V100 Tensor Core 32GB GPUs,拥有10240个张量计算核心,计算性能达每秒2千万亿次。去年,浪潮还推出了浪潮元脑一体化解决方案。既包括了AI计算能力,也包括了AI PaaS平台,同时包括了浪潮面向人工智能所推出的AutoML Suite套件。
华为自2018年10月发布AI战略以来,于去年8月发布其算力最强的AI处理器昇腾910和全场景AI计算框架MindSpore,完成全栈全场景AI解决方案的构建。在典型的ResNet50 网络的训练中,昇腾910与MindSpore配合,与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。
AI服务器的竞争,已经不只是简单的产品升级迭代,而是上升到了整体的布局,是包括芯片、云、数据处理能力、框架、算法开发基础、部署环境等在内的整体能力。
随着数据的爆炸增长与深度神经网络日趋复杂,单机或小型服务器已经无法满足算力需求,未来将有大量的人工智能应用和服务被放在云端。AI算力需求逐步迈入高峰期,更高性能的AI服务器将在线下场景落地。
互联网仍是AI服务器主战场
虽然AI落地被认为是“架起梯子远远够不到月亮”阶段,但在某些细分领域已经开始从“AI产业化”向“产业AI化”的逐步转变。勇于尝试新技术的互联网公司仍是AI服务器的主战场。
新型冠状病毒疫情爆发后,阿里巴巴、腾讯、百度等公司,通过开放核心算法和计算能力的方式,与医学研究机构共同抗击疫情,AI算力对于与疫情赛跑的分分秒秒中都起到了关键作用,助力病毒基因测序、疫苗及药物研发、蛋白筛选等药物研发攻关。
受疫情影响,在线办公、教育、娱乐等应用需求加速增长,互联网巨头和细分领域头部企业,开始对服务器进行扩容,数据中心和服务器市场有望迎来扩容机遇。
企业 |
服务器扩容情况 |
阿里巴巴 |
2月3日扩容1万台,2月4日扩容1万台 |
腾讯 |
1月29日至2月6日,8天总扩容超过10万台云服务器 |
金山办公 |
1月25日前后,WPS表单服务器扩容5倍;2月3日后,金山文档远程会议服务器扩了3倍,金山文档在线office扩了1倍。 |
叮当快药 |
2月12日后,服务器扩容30倍 |
<电子发烧友>整理于2020.2.18 |
根据IDC《2019-2020中国AI计算力发展评估报告》显示,
互联网是投资AI算力最多的行业,占据了中国62.4%的人工智能算力投资市场份额。而算力这一AI基础设施,主要由AI芯片和AI服务器玩家提供,这一市场正在高速增长。
不过,在互联网行业之外,传统行业和AI的结合也越来越紧密,其中服务行业正在加大对AI技术的投入,政府、教育、金融等传统行业也进一步加深与AI应用的融合。
AI服务器需要多样性算力
以AI带来的多种数据类型和场景为代表,驱使计算架构优化、多种计算架构并存,已经成为实现最优性能计算的必然选择。
AI爆发前,算力主要来源于x86服务器。而随着单颗CPU性能提升遭遇瓶颈,传统服务器难以满足并行算力需求,以GPU为主的AI服务器开始了高速增长。擅长多线程并行的GPU在处理海量数据上有着先天优势,
通过CPU+GPU异构组成的AI服务器成为当下主流,是服务器厂商纷纷发力的产品。
根据IDC对中国GPU服务器出货量的预测,2018-2023年,整体市场年复合增长率(CAGR)为27.1%,到2023年市场规模将达到43.2亿美金(约合人民币298亿元)。
在刚刚过去的2019年,由于互联网行业采购的缩减以及中美贸易战的不断升级,给中国GPU服务器市场带来了一定程度上的影响,使其市场增速稍有放缓,但依然高于中国x86服务器市场。
从产品角度看,8卡GPU服务器和英伟达的V100加速卡成为去年上半年的采购热点,均占据30%以上的份额。
值得一提的是,
在GPU称霸的AI服务器领域,FPGA正以“加速”之形象变得深入人心。微软是全球首个真正意义上在云数据中心中大规模成功部署FPGA的公司,他们牢牢抓住FPGA灵活性这一最重要的特点,通过使用FPGA,一方面可以尽早开展定制化计算与定制芯片的研究与设计,另一方面,可以保持与现有架构相互兼容的同构性。目前,包括浪潮、华为、戴尔、百度等均已宣布在其服务器中部署FPGA加速卡。
在异构方式上,除了CPU+GPU、CPU+FPGA,还有CPU+TPU、CPU+ASIC或CPU+多种加速卡等形式,随着场景应用的逐渐丰富,
AI服务器架构应了一句话“合适的才是最好的”,步入多样化的算力需求时代。
算力缺口持续放大,巨头、创企混战
在笔者早先与雪湖科技联合创始人兼COO王韵的交流中,他对于AI三要素:算法、算力、数据,有个形象的比喻:
算法是菜谱,算力是锅,数据是食材。在AI发展初期,为什么算法公司占据明显优势?因为要做出一道大餐,必须有好的菜谱。但是,当大家慢慢掌握了烧菜方法后,菜谱就变得不像最初那么重要了,反而是,一口好锅和好的食材非常关键。
这就是AI正在经历的从算法霸权,向算力霸权和数据霸权的演进。
随着AI、5G、无人驾驶等确定性趋势技术的发展,算力缺口仍在不断放大。我们所处的世界,计算的边界也在不断延伸,从数据中心到边缘再到终端,智能计算将无所不及。
AI终将成为一种基础能力,连接芯片提供商、应用提供商、服务提供商和算法提供商。算力也将作为一切人工智能产业发展的核心,从早期的集中在训练场景,发展到在推理场景的大规模应用阶段。
对于服务器市场正在发生的变化,巨头们早已开始了改变。
英特尔不断提升其数据中心的异构计算的能力,并在跨多架构的开发过程中进行统一和简化。刚刚斥资约20亿美元收购的以色列人工智能公司Habana Labs,有助于提振英特尔面向数据中心的AI服务。Habana Labs的AI训练处理器Gaudi,与使用同等数量GPU构建的系统相比,基于Gaudi的大节点训练系统的吞吐量预计将增加4倍。Gaudi训练产品和Goya推理产品能够提供丰富的、易于编程的开发环境,帮助客户部署差异化解决方案。
英伟达显然也没有掉以轻心,虽然在其刚刚宣布的2020财年第四季度及全年的财务报告中显示,数据中心收入达到创纪录的29.8亿美元,比上年增长2%。对于未来,英伟达方面表示,“我们看到了一个新的计算时代的开始。固定功能加速器根本不是正确的答案。我们认为未来需要加速的计算平台,并且软件丰富性至关重要,数据中心可以由软件定义。”
国内创企也在崛起的AI服务器市场中激流勇进。不过,由于云端训练芯片的研发投入大、流片风险高,仅有为数不多的公司能够进入该领域。目前主要有海思、阿里、依图、寒武纪、燧原等。
应对未来数据量的爆炸性增长,硬件本身的能力有一定的局限性,软硬协同的平台组合,才能做到前端承接多源数据、后端支撑智能应用。算力、算法和数据的协同也至关重要,算力和算法的提升,数据的开放和共享,将共同推动AI向产品乃至行业智能化的普及。