0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT背后的算力芯片

Hobby观察 来源:电子发烧友网 作者:梁浩斌 2023-05-21 00:01 次阅读
【核芯观察】是电子发烧友编辑部出品的深度系列专栏,目的是用最直观的方式令读者尽快理解电子产业架构,理清上、中、下游的各个环节,同时迅速了解各大细分环节中的行业现状。以ChatGPT为首的AI大模型在今年以来可以说是最热的赛道,而AI大模型对算力的需求爆发,也带动了AI服务器中各种类型的芯片需求,所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链,梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。
ChatGPT带火AI大模型行业
ChatGPT是OpenAI公司在2022年11月底发布的一款聊天机器人,属于AICG(生成式人工智能技术)之一,ChatGPT能够通过理解和学习人类语言来进行对话,还能根据聊天上下文的信息进行理解互动,完成包括撰写邮件、文案、翻译、生成代码等多种任务。
与以往的决策式AI相比,生成式AI不仅仅局限于通过简单分析现有数据来进行决策,而是对现有数据进行学习后,根据已有知识进行模仿来生成全新的内容。
ChatGPT可以理解成是利用GPT模型并结合多种技术,包括多轮对话建模、对话行为分类、情感分析、GPT全称是Generative Pre-trained Transformer,顾名思义这是一种生成式预训练语言模型,ChatGPT目前是基于GPT-3.5和GPT-4这两个大语言模型构建的。GPT的核心结构是Transformer模型架构,可以说ChatGPT是基于Transformer的文本生成能力,在大规模的对话语料上进行了无监督预训练,然后在特定的对话任务上进行有监督微调,使得其可以自然地生成文本或者回答问题,适用于自然语言生成的任务,因此在聊天互动上会有较好的表现。
在实际用户体验中,ChatGPT展现出极高的对话质量和实用性,尽管仍会出现一些事实性错误,但超强的对话能力让它迅速出圈,仅仅在上线两个月后活跃用户数就突破一亿,成为史上增速最快的消费级应用。
与此同时,ChatGPT的爆火,也引爆了AI大模型创业的新一轮热潮,除了各大互联网巨头、高校团队之外,王小川、李开复、贾扬清等业界明星创业者也纷纷加入AI大模型创业的赛道,开发类ChatGPT的产品
但这种AI大模型背后的技术底层并不简单,它需要海量的数据、复杂的算法和强大的算力来支撑。其中,算力是人工智能发展最大的瓶颈,也是当前AI大模型核心竞争力的关键因素。目前,AI大模型主要依赖于GPUCPU+FPGAASIC等算力芯片来实现其高效运行。这些算力芯片是针对人工智能算法做了特殊加速设计的芯片,也被称为AI加速器或计算卡,是AI的算力基础。
所以,在当前AI大模型行业的热潮下,算力需求暴增带来的是相关芯片需求的大幅上涨。有机构预计,AI训练对于算力的需求未来将会以每3.5个月翻一番的速度增长。因此我们在这期核芯观察中,会着重关注ChatGPT火热背后的算力芯片产业链。
大模型时代需要更多芯片算力
目前市面上主要的AICG预训练大模型主要有OpenAI的GPT系列、谷歌的PaLM、Meta的LLaMA、百度的文心系列、腾讯的混元系列、阿里巴巴的通义千问、华为的盘古大模型等等

根据OpenAI公布的数据,GPT模型从2018年6月首次发布到2023年5月,已经迭代了四格大版本,参数量从GPT-1的1.17亿到GPT-3的1750亿到GPT-3的1750亿。而最新的GPT-4虽然没有公布训练参数量,不过根据OpenAI的说法,GPT-4主要的升级是多模态能力方面,会使用到更多计算资源。
近期谷歌发布的PaLM2的升级也类似,在参数量与PaLM2基本同是5400亿的情况下大幅提升多模态能力,也就是可以同时处理文本、图像、音频等多种内容。
而百度的类ChatGPT模型文心一言,是基于百度文心大模型打造,2021年12月百度推出的文心ERNIE 3.0 Titan参数量规模高达2600亿。
当然由于大模型类型的不同比如NLP、CV,也有融合了NLP和CV的多模态,所以参数量也不直接代表大模型的实际能力。
参数量越高,意味着消耗的算力资源越多。以ChatGPT为例,由于ChatGPT与13亿参数的InstructGPT是一对姐妹模型,仅在采集数据方式上有差异。参数规模为13.2亿的GPT-3 XL与ChatGPT接近,而OpenAI公开的数据中,GPT-3 XL训练所需算力是27.5PFlop/s-day(1PetaFLOP/s的效率运行27.5天),那么我们可以大致认为ChatGPT训练一次所需算力同样是需要1PetaFLOP/s的效率运行27.5天。
如果使用英伟达V100 GPU,按照半精度(FP16)算力125TFLOPS计算,ChatGPT至少需要一块V100 GPU不间断满载运行220天才能完成一次训练;如使用SXM版本的A100,按照半精度算力624TFLOPS计算,那么ChatGPT进行一次训练也需要一块A100运行44天左右。
目前SXM版本最高规格显存的V100和A100单卡市场售价大约分别为2.5万元和9万元左右。
当然由于技术形式的不同,实际训练中的效率不会这么高,而这样的训练成本仅是13亿参数量的模型。如今AI大模型动辄千亿,甚至万亿的参数量规模,比如有机构报告推算GPT-4模型参数量达到1万亿,那么在暴增的数据量下,为了缩短训练时间,对于AI服务器等算力硬件的需求量毫无疑问会随着模型训练数据量增加而提高。
另一方面,在ChatGPT这类聊天应用中,巨大的用户访问量也给算力带来巨大的性能和成本压力。根据Similarweb数据,今年2月OpenAI访问量已经达到11亿次,而根据Fortune的数据,用户每次与ChatGPT互动产生的云算力成本约0.01美元,如果往低了算,每次访问网站仅进行一次互动,那么单月仅算力成本也要1100万美元。
未来在包括类ChatGPT在内的AI大模型进入到更多行业应用之后,市场需求持续开拓,AI服务器市场规模将有很大的市场空间,相关下游应用对于算力硬件的需求将会迎来新一轮爆发。
IDC的数据显示,2021年,全球AI服务器市场规模为156亿美元,同比增长39.1%;预计到2025年全球AI服务器市场规模将会达到317.9亿美元,复合年均增长率为19%。根据集邦咨询数据,截至2022年,预估搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,而2023年,在ChatGPT相关应用加持下,预估出货量年同比增长8%,2022~2026年CAGR将达10.8%。
AI大模型背后用到哪些芯片?
在AI大模型领域,主要包括训练(training)和推理(inference)两个步骤,训练即前面提到的通过大量经过标记的数据来训练能够完成特定功能的模型,而推断即利用经过训练后的模型,根据新导入的数据来推断出结论。
用于人工智能的服务器目前主要用到CPU搭配GPU、FPGA、AI ASIC这几种加速芯片,根据不同的计算任务选择不同的芯片搭配。对于大模型训练而言,传统的CPU受限于单行运算,主要在逻辑控制、串行运算等方面有优势,不擅长复杂算法运算和处理并行重复的操作。所以CPU在深度学习中会被用于推理或预测等领域,而在服务器中,CPU可以负责整个系统的管理和控制,是服务器的基础硬件,而GPU、FPGA、ASIC等加速芯片则负责AI计算任务的加速,两者相互协作,共同提升整个系统的性能。按照IDC的数据CPU在基础型、高性能型、推理型、训练型服务器中成本占比分别为32%、23.3%、25%、9.8%。
GPU则是目前AI服务器最常见的芯片,它提供多核并行计算的基础结构,可以支撑大算力需求,并且拥有高浮点运算能力,在处理图形数据和复杂算法方面与CPU相比有明显优势,满足深度学习领域的大量数据运算需求。不过GPU管理控制能力弱,需要配合CPU使用,功耗也较高。
FPGA也就是现场可编程门阵列,特点是可以无限次编程、灵活性较高,延时低,实时性强,可以同时进行数据并行和任务并行计算,在处理特定应用时会有明显的效率优势。同时可重复编程为算法功能实现和优化提供较大的修改空间。但与此同时FPGA开发难度大,价格较高,所以应用场景会受到一定限制。
AI用ASIC顾名思义是全定制化的芯片,专为特定应用或实现某种特定功能而专门设计的AI芯片,在处理相应任务时的能耗、效率表现都最好。但ASIC前期研发成本高、时间周期长,并且由于定制化设计,应用场景极为局限。在深度学习算法稳定后,可以通过根据算法需求设计ASIC,提供最高效率的算力硬件,大规模应用下能够大幅降低整体系统成本。

总结一下这四种芯片在AI计算中起到的不同作用:CPU主要用于逻辑判断、任务调度和控制方面;模型训练则往往会使用GPU;FPGA多数在研发阶段、数据中心、AI推理方面;AI用ASIC主要面向使用特定AI算法的应用场景,需要较为成熟的应用支撑其量产。
根据IDC的数据,中国AI芯片市场上目前GPU占比最高为89%,其次是NPU占到9.6%,ASIC和FPGA仅分别占1%和0.4%。其中NPU主要是用在边缘侧。而对于AI服务器的使用领域,按照当前趋势,在市场增长的情况下,服务器用于推理的负载占比会缓慢增加。2021用于推理和训练的占比分别为40.9%和59.1%,IDC预测2025年推理和训练的占比调整为 60.8%和39.2%。
不过随着AI大模型的成熟、算法持续优化、芯片性能的提升等因素变化,未来模型消耗的算力需求、服务器数量需求可能会比预测的数据要低。
下一期内容,我们将会对AI大模型中使用到的CPU、GPU、FPGA、ASIC这些细分领域产业链中做进一步的分析梳理,记得关注我们~
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算力芯片
    +关注

    关注

    0

    文章

    46

    浏览量

    4521
  • 算力
    +关注

    关注

    1

    文章

    971

    浏览量

    14800
  • ChatGPT
    +关注

    关注

    29

    文章

    1560

    浏览量

    7624
收藏 人收藏

    评论

    相关推荐

    调度的基础知识

    编者按 “调度”的概念,这几年越来越多的被提及。刚听到这个概念的时候,我脑海里一直拐不过弯。作为底层芯片出身的我,一直认为:是硬件的
    的头像 发表于 11-27 17:13 173次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>调度的基础知识

    AI芯片供电电源测试利器:费思低压大电流系列电子负载

    AI芯片作为驱动复杂计算任务的核心引擎,其性能与稳定性成为了决定应用成败的关键因素。而在这背后,供电电源的稳定性和高效性则是保障AI
    的头像 发表于 10-25 11:26 417次阅读
    AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>供电电源测试利器:费思低压大电流系列电子负载

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 编辑 感谢平台提供的书籍,厚厚的一本,很有分量,感谢作者的倾力付出成书。 本书主要讲芯片CPU
    发表于 10-15 22:08

    名单公布!【书籍评测活动NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架构分析

    试用评测资格! 前言 不知不觉中,我们来到一个计算机科学飞速发展的时代,手机和计算机中各类便捷的软件已经融入日常生活,在此背景下,硬件特别是强劲的芯片,对于软件服务起到不可替代的支撑作用。
    发表于 09-02 10:09

    浅析三大之异同

    随着一年多前ChatGPT的出现引爆人工智能(AI)浪潮,支撑大模型背后的“”概念突然闯进我们的视野,成为科技圈炙手可热的新词,引领着最新潮流。作为数字经济时代新生产
    的头像 发表于 08-30 12:56 833次阅读
    浅析三大<b class='flag-5'>算</b><b class='flag-5'>力</b>之异同

    大模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    商汤科技采购40000颗英伟达芯片,缩小中美差距

    徐冰认为,国产芯片崛起以及商品化带来的投资价值,使中美差距有望逐步缩小。只要中国持续在
    的头像 发表于 05-28 11:25 1252次阅读

    揭秘芯片:为何它如此关键?

    在数字化时代,芯片作为电子设备的核心组件,其性能直接关系到设备的运行速度和处理能力。而芯片,即其计算能力,更是衡量芯片性能的重要指标。
    的头像 发表于 05-09 08:27 1041次阅读
    揭秘<b class='flag-5'>芯片</b><b class='flag-5'>算</b><b class='flag-5'>力</b>:为何它如此关键?

    力系列基础篇——101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么?那必须是:
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    时代, 如何打破内存墙

    设计的不断革新,进入了大时代。 目前,主流AI芯片的架构仍然沿用了传统的冯·诺依曼模型,这一设计将计算单元与数据存储分离。在这种架构下,处理器需要从内存中读取数据,执行计算任务,然后将结果写回内存。尽管AI
    的头像 发表于 03-06 19:51 317次阅读
    大<b class='flag-5'>算</b><b class='flag-5'>力</b>时代, 如何打破内存墙

    芯片:未来科技的加速器?

    在数字化时代,芯片作为电子设备的核心组件,其性能直接关系到设备的运行速度和处理能力。而芯片,即其计算能力,更是衡量芯片性能的重要指标。
    的头像 发表于 02-27 09:42 931次阅读
    高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>:未来科技的加速器?

    智能规模超通用,大模型对智能提出高要求

    电子发烧友网报道(文/李弯弯)是设备通过处理数据,实现特定结果输出的计算能力,常用FLOPS作为计量单位。FLOPS是Floating-point Operations Per Second
    的头像 发表于 02-06 00:08 6332次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    ChatGPT芯片如何做输出

    卡的核心当然还是计算芯片,会搭配大容量高带宽的内存、缓存,以及搭载CPU用于调度,为了帮助数据传输,便会使用高速通道,这便是PCIe(高速串行计算机扩展总线标准)在系统中的作用:提供总线通道。
    发表于 01-11 10:01 499次阅读
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>如何做<b class='flag-5'>算</b><b class='flag-5'>力</b>输出

    芯科技,解密ChatGPT畅聊之芯片

    的GPU服务器,尤其是英伟达的A100 GPU,提供了强大而精确的计算能力。ChatGPT的功能远超日常对话,它能够学习、理解并生成人类般的文本,是人工智能领域的一个重要突破。但其真正力量的源泉,是背后那些不断工作的
    的头像 发表于 12-27 07:45 1023次阅读
    芯科技,解密<b class='flag-5'>ChatGPT</b>畅聊之<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>