近日,百度APOLLO DAY技术开放日活动以线上直播形式成功举办。作为国内唯一实现全无人自动驾驶商业化运营的公司,百度通过该活动全景化展示了Apollo全无人自动驾驶技术实力。
活动期间,昆仑芯科技CEO欧阳剑结合公司两代芯片产品、技术与市场落地情况,分享昆仑芯2代AI芯片适配RoboTaxi高阶自动驾驶系统,以澎湃算力赋能智能汽车算力中心的应用实践。
本篇以下内容整理于昆仑芯科技CEO欧阳剑题为“自研AI芯片创新赋能高阶自动驾驶——从AI到端到端算力”的主题演讲。
过去几年,智能汽车领域发展非常快,从传统的L2级别的辅助驾驶,向今天的RoboTaxi和更高阶的自动驾驶发展,同时自研芯片也发展得非常快,所以大家都非常好奇,自研的AI芯片现在在高阶自动驾驶领域表现如何。我今天就给大家带来这样一个分享——自研AI芯片创新赋能高阶自动驾驶。
在进行分享之前,我想给大家介绍一下昆仑芯科技这个公司,用一句话来总结:“十年磨一剑,一朝试锋芒”。我们之前是百度的一个部门,2011年开始,从AI进入产业界第一天,我们就开始从事AI计算相关的工作。我们最早是用FPGA对AI进行计算加速。
从2011年开始这个工作以来到2015年,我们就已经部署了超过5000片的FPGA在百度数据中心。到了2017年,我们总共累计部署超过12000片FPGA。同时,我们在Hot Chips累计发表了三篇论文,也在一些顶级会议上发表过我们的论文,在Hot Chips上第一次发表了XPU架构。到了2018年,我们觉得AI计算架构会有一些非常大的变革,所以我们决定自己研发AI芯片,正式启动昆仑芯系列产品的研发和设计。
到了2020年,昆仑芯1代开始了大规模部署。2021年,昆仑芯科技正式独立。到了2022年,我们昆仑芯2代已经在数据中心、工业领域、自动驾驶领域大规模部署及落地。这是我们公司过去十多年来的发展历程。
大家都知道,大算力的AI芯片起步相对比较晚,在这种情况下我们必须加快产品的迭代,我们迭代的速度和强度,不能低于先进的产品。昆仑芯在这么一个高强度的迭代之下已经量产了两代,同时我们第三代芯片和第四代芯片都在研发的过程中。
大家可以看到这个图上,最左边是我们第一代的14纳米的人工智能芯片,这个芯片采用了非常先进的HBM内存,并采用了2.5D的封装。这款芯片刚量产就已经在百度数据中心部署了超过2万片。接着在一年多之后,就量产了第二代AI芯片,7纳米的工艺,非常先进。昆仑芯2代AI芯片也采用了非常先进的技术,搭载了第二代XPU架构,是业界第一颗采用GDDR6内存技术的AI芯片。同时,更先进的第三代AI芯片正在研发,我们的产品迭代的速度是非常快的。
基于我们的AI芯片也发布了一系列的AI加速板卡以及AI服务器,包括做训练的高性能的AI服务器。
这里给大家介绍一下我们量产的第二代云端通用人工智能计算处理器。特别要突出的是它的通用性。AI发展到今天,迭代非常快,模型非常多,如果不通用,就无法满足今天AI发展的需求。
做通用AI芯片,背后的技术挑战是非常高的。我们第二代芯片采用了最新一代的XPU-R的架构,这个架构经历了过去十多年的迭代,通用性、易用性有非常显著的提高。
这个芯片的算力非常强大,有128T 16比特的算力和256T 8比特的算力。昆仑芯2代采用了非常先进的7纳米工艺,也是业界第一颗采用GDDR6高速显存的人工智能芯片。这个芯片的功能非常完备,除了强大算力之外,也具备支持虚拟化,支持芯片之间的互联,支持视频编解码一系列非常全面的功能。这个芯片的显存有32GB,非常大,它的显存带宽也非常高,达到512GB/秒的显存带宽。
现在的市场上,大家能看到很多自主研发的AI芯片,大家会非常好奇:昆仑芯在这些芯片中有哪些优势?在我看来,昆仑芯的产品有如下三个非常独一无二的优势。
第一,我认为实际上昆仑芯是为数不多,能够在真实系统上大规模部署和应用的AI芯片。我们在互联网的算力中心、工业、交通、金融、医疗、教育等不同方向,都有数万片规模部署。
第二,我们的生态完备性应该是国内做的最好的,我们跟多款通用处理器、操作系统、服务器都做了非常完美的适配,而且这些适配都已经在工业系统上得到非常好的应用。
最后,这也是昆仑芯独一无二的一个优势——它非常灵活易用。大家都知道人工智能的算法迭代非常快,新的模型层出不穷,所以昆仑芯提供了一个非常好用的SDK,使开发者可以像用GPU一样来使用昆仑芯,学习门槛非常低,迭代的效率也非常快。
这么多AI芯片,我认为昆仑芯芯片是为数不多可以在非常多的场景大规模落地的产品。我们在车路协同、物流系统、智慧交通这些跟交通相关的领域都有很好的落地。我们在智慧医疗、智慧园区、智慧金融、互联网的大规模算力中心、教育等等,都有非常全面的大规模落地,有很好的应用案例。这足以证明昆仑芯的产品和技术非常成熟,而且得到了客户高度认可。
以上是对昆仑芯的产品、技术和市场落地的情况的介绍。接下来回到今天的主题:昆仑芯在高阶自动驾驶方面的工作。大家都知道今天的RoboTaxi系统或者说高阶自动驾驶系统,它的业务复杂度、模型算法的复杂度不亚于数据中心。所以昆仑芯在数据中心里面积累的所有优势,包括它的高性能、通用性和易用性都能很好地赋能今天的高阶自动驾驶系统。我们的昆仑芯2代AI芯片已经在百度的RoboTaxi系统上做了完整适配。我今天就给大家分享一下这部分的工作。
一个高阶自动驾驶系统,它的计算系统非常复杂。这里面一般是要用到感知模型、定位模型,用到一些控制规划的算法,还包括整个端到端的计算,其中模型的数量可能会有几十个,而且业界最新的模型也会非常快地应用到自动驾驶系统中。因为这些都是最新的模型,所以它对算法的迭代速度、对算力的要求都非常高,而且在道路上对延时的要求也非常高。
我们很好地支持了整个RoboTaxi,这里面包括AI部分。我们用昆仑芯2代AI芯片跟业界最主流的显卡做了一个性能对比,我们的性能优于这个显卡,功耗只有不到这个显卡的一半。我们也跟主流的AI加速卡做了一个性能对比,我们的性能是它的两倍以上。同时,我们也做了一个端到端的测试,我们在不到高端显卡一半的功耗的情况下,取得了比较领先的性能。
除了AI模型,在一些控制规划这种非AI的模型(可能是一些并行计算,也可能是一些逻辑计算),我们也都取得了相对于一些显卡更好的性能效果。这足以证明昆仑芯的产品能力可以非常完美地支持高阶自动驾驶,这是我们的一些适配成果。
第二代昆仑芯在RoboTaxi的驾驶系统上做了完整适配,也在一些仿真系统和路测系统上做了一个完整的测试,测试结果完全达到客户的要求,这里不做过多的介绍。
这是我们在整体系统上所做的一些工作,可以看到在昆仑芯2代AI芯片的高阶自动驾驶系统里面,整个系统运行非常正常、非常平滑,它的性能、稳定性也完全符合客户的需求。
总结来看,今天的高阶自动驾驶计算系统,和数据中心系统有非常相似之处:它的算法非常多元,算法迭代的速度非常快,算法复杂度也越来越高。那就意味着我们的计算系统一定要满足这些要求,且非常高性能,否则就没法支持那么多复杂的算法。在车上这么一个对性能要求苛刻的地方,能够实现正常运转,就一定会要求非常好编程、非常好移植,否则那些先进的算法就没法很快迭代到车上使用,系统也没法保证其领先性。
此外,它的稳定性要非常好。因为车的系统比云端的系统对稳定性上要求更加苛刻,这个稳定性不仅包括硬件,还包括整个软件,它要求具备整个系统的稳定性。
最后说一下我的心得和体会。我本人参与自动驾驶系统方面的工作已经很多年,过去一直有一个观点,在车载计算系统是一个相对封闭的系统,要求做非常深度的软件和硬件的定制。五六年前,对于云端的AI芯片也一样有人持这个观点,而且这个观点还非常主流。但今天回头来看,过去五六年,提出这个观点的AI芯片公司已经全部不在市场里了。所以,未来的车载计算系统一定是相对开放,能够为用户提供高算力、高通用性,可以满足客户个性化需求的计算系统。
昆仑芯经过十几年的迭代,未来也会考虑面向高阶自动驾驶系统,定制我们的车规高性能的SoC,把过去10余年所有的积累、所有的创新都用在车上。
谢谢大家,今天的演讲就到这里。
审核编辑:汤梓红
全部0条评论
快来发表一下你的评论吧 !