0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不再焦虑GPU供应,8芯片挑战5万亿参数大模型

E4Life 来源:电子发烧友网 作者:周凯扬 2023-09-27 09:10 次阅读

电子发烧友网报道(文/周凯扬)随着LLM与生成式AI热度不减,不少AI芯片初创公司都找到了新的发力点,纷纷调整设计思路,专为这一爆款应用开发出了新款芯片。且不说这些芯片的实际性能如何,但这无疑是当下推动这些公司获得投资,并在行业下行期存活下去的救命稻草。今天我们就来聊聊刚发布新品SN40L的AI芯片初创公司SambaNova。

SN40L背后的SambaNova

SambaNova成立于2017年,截至目前已经历了共计6轮融资,参与融资的公司包括谷歌、英特尔和软银等,融资总额高达11亿美元。只不过最近的D轮融资,距今已经有两年多的时间,也难怪SambaNova急于推出SN40L这一芯片,毕竟此类初创公司的开发从来都是烧钱的。

其实在SN40L推出以前,SambaNova也并非默默无闻,比如美国阿贡国家实验室早在第一代产品SN10推出时就在使用和测试SambaNova的系统了,只不过届时基于SN10的SambaNova Dataflow系统还只是用于消除数据噪声而已。

如果我们现在看阿贡国家实验室的ALCF AI测试平台,我们可以看到5大系统,分别是Cerebras的CS2、SambaNova的Dataflow、Graphcore的Bow Pod64、Grop系统以及Habana的Gaudi。而目前用于ALCF AI测试平台的SambaNova Dataflow就是基于SN40L的上一代产品SN30 RDU打造的,该芯片基于台积电的7nm工艺打造。

目前SN30用在阿贡国家实验室的这套系统主要用于一些科学研究领域的AI计算,比如中微子物理、癌症预测、气候建模以及下一代汽车引擎研发等。而我们真正关注的是刚发布的SN40L,以及它在LLM这一应用上能提供何种不同的优势。

英伟达GPU的替代方案

目前LLM的主流方案,即英伟达的A100、H100 GPU,存在一个很大的问题,那就是缺货。对于任何互联网厂商来说,在市面上找到足够多的GPU都是一件费钱费力的事。而对于云服务厂商来说也是如此,他们也要考虑出租这类服务器时,GPU的算力与容量分配问题。

wKgaomUTgVGAKNovADO8XqFE2PU092.png
SN40L芯片和CEO Rodrigo Liang / SambaNova


为了解决“数量”的问题,SambaNova推出了SN40L。相较上一代的SN30,该芯片基于台积电5nm工艺打造,每个芯片集成了1020亿个晶体管和1040个核,算力高达638TFlops。更夸张的是,SambaNova称单个SN40L系统节点(8块SN40L芯片)就能支持到最高5万亿参数的大模型。

与其他AI芯片初创公司不一样的是,他们并没有选择直接将芯片卖给其他公司这条路线,而是选择了售卖访问其定制AI技术栈的访问权,包括其自研硬件和运行超大模型的软件等。这种商业模式或许能吸引一部分互联网公司,但在云服务厂商眼中,他们应该不会觉得这是一套可盈利的方案。

此外,SambaNova与其他竞争对手一样,在AI芯片上引入了64GB HBM用于解决内存墙的问题,这也是SN40L与上一代芯片的差异之一。只不过SambaNova并没有透露SN40L用的是何种HBM,以及带宽性能如何。

写在最后

虽然SambaNova展示了提高LLM扩展性的另一条道路,但在没有经过实际验证之前,市场还是会对其持观望态度。此前也有不少AI芯片公司发表过同样大胆的声明,但事实证明这类芯片只适合用于运行那些预训练完成的模型,而训练过程仍需要靠GPU来完成。所以哪怕SambaNova的CEO Rodrigo Liang强调SN40L的训练性能足够优秀,但是否能在这套商业模式下闯出一片天,就得交由市场去验证了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4739

    浏览量

    128945
  • SambaNova
    +关注

    关注

    0

    文章

    7

    浏览量

    205
  • SN40L
    +关注

    关注

    0

    文章

    2

    浏览量

    46
收藏 人收藏

    评论

    相关推荐

    AI大模型不再依赖英伟达GPU?苹果揭秘自研大模型

      电子发烧友网报道(文/梁浩斌)过去几年中爆发的AI算力需求,英伟达GPU成为了最大的赢家,无论是自动驾驶还是AI大模型,比如特斯拉、小鹏、OpenAI、字节跳动等厂商都在争相抢购英伟达GPU产品
    的头像 发表于 08-05 06:07 4001次阅读
    AI大<b class='flag-5'>模型</b><b class='flag-5'>不再</b>依赖英伟达<b class='flag-5'>GPU</b>?苹果揭秘自研大<b class='flag-5'>模型</b>

    GPU是如何训练AI大模型

    在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大模型的。
    的头像 发表于 12-19 17:54 119次阅读

    PyTorch GPU 加速训练模型方法

    在深度学习领域,GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架,提供了丰富的工具和方法来利用GPU进行模型训练。 1. 了解
    的头像 发表于 11-05 17:43 557次阅读

    当前主流的大模型对于底层推理芯片提出了哪些挑战

    随着大模型时代的到来,AI算力逐渐变成重要的战略资源,对现有AI芯片也提出了前所未有的挑战:大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。
    的头像 发表于 09-24 16:57 655次阅读

    英伟达Blackwell可支持10万亿参数模型AI训练,实时大语言模型推理

    、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。   英伟达称,Blackwell拥有6项革命性技术,可支持多达10万亿参数模型进行AI训练
    的头像 发表于 09-04 09:10 2904次阅读

    英伟达震撼发布:全新AI模型参数规模跃升至80亿量级

    8月23日,英伟达宣布,其全新AI模型面世,该模型参数规模高达80亿,具有精度高、计算效益大等优势,适用于GPU加速的数据中心、云及工作站环
    的头像 发表于 08-23 16:08 740次阅读

    暴涨预警!NVIDIA GPU供应大跳水

    gpu
    jf_02331860
    发布于 :2024年07月26日 09:41:42

    模型发展下,国产GPU的机会和挑战

    电子发烧友网站提供《大模型发展下,国产GPU的机会和挑战.pdf》资料免费下载
    发表于 07-18 15:44 10次下载
    大<b class='flag-5'>模型</b>发展下,国产<b class='flag-5'>GPU</b>的机会和<b class='flag-5'>挑战</b>

    AI初出企业Cerebras已申请IPO!称发布的AI芯片GPU更适合大模型训练

    美国加州,专注于研发比GPU更适用于训练AI模型的晶圆级芯片,为复杂的AI应用构建计算机系统,并与阿布扎比科技集团G42等机构合作构建超级计算机。基于其最新旗舰芯片构建的服务器可轻松高
    的头像 发表于 06-26 00:09 2917次阅读
    AI初出企业Cerebras已申请IPO!称发布的AI<b class='flag-5'>芯片</b>比<b class='flag-5'>GPU</b>更适合大<b class='flag-5'>模型</b>训练

    中国电信发布全球首个单体稠密万亿参数语义模型

    近日,中国电信人工智能研究院(TeleAI)携手北京智源人工智能研究院,共同推出了全球首个单体稠密万亿参数语义模型——Tele-FLM-1T,这一里程碑式的成就标志着中国电信在人工智能领域取得了重大突破,并成为了国内首批发布稠密
    的头像 发表于 06-20 10:50 660次阅读

    万卡集群解决大模型训算力需求,建设面临哪些挑战

      电子发烧友网报道(文/李弯弯)万卡集群是指由一万张及以上的加速卡(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。这种集群的构建旨在
    的头像 发表于 06-02 06:18 4739次阅读
    万卡集群解决大<b class='flag-5'>模型</b>训算力需求,建设面临哪些<b class='flag-5'>挑战</b>

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    百亿亿次计算和万亿参数模型提供基础 NVIDIA推出世界首个高速GPU互连技术NVLink™,提供的速度远超基于PCIe的解决方案,是多GPU系统扩展内存和性能的理想选择。NVLink
    发表于 05-13 17:16

    模型时代,国产GPU面临哪些挑战

    ,国产GPU在不断成长的过程中也存在诸多挑战。   在大模型训练上存在差距   大语言模型是基于深度学习的技术。这些模型通过在海量文本数据上
    的头像 发表于 04-03 01:08 4670次阅读
    大<b class='flag-5'>模型</b>时代,国产<b class='flag-5'>GPU</b>面临哪些<b class='flag-5'>挑战</b>

    FPGA在深度学习应用中或将取代GPU

    现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题 在过去的十年里,人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅
    发表于 03-21 15:19

    Groq推出大模型推理芯片 超越了传统GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU。
    的头像 发表于 02-26 10:24 1040次阅读
    Groq推出大<b class='flag-5'>模型</b>推理<b class='flag-5'>芯片</b> 超越了传统<b class='flag-5'>GPU</b>和谷歌TPU