0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI时代核心存力HBM(上)

闪德半导体 来源:闪德半导体 2024-11-16 10:30 次阅读

一、HBM 是什么?

1、HBM 是 AI 时代的必需品作为行业主流存储产品的动态随机存取存储器 DRAM 针对不同的应用领域定义了不同的产 品,几个主要大类包括 LPDDR、DDR、GDDR 和 HBM 等,他们虽然均使用相同的 DRAM 存储单 元(DRAM Die),但其组成架构功能不同,导致对应的性能不同。手机、汽车、消费类等 对低功耗要求高主要使用 LPDDR,服务器和 PC 端等有高传输、高密度要求则使用 DDR,图 形处理及高算力领域对高吞吐量、高带宽、低功耗等综合性要求极高则使用 GDDR 和 HBM。 HBM(High Bandwidth Memory),意为高带宽存储器,是一种面向需要极高吞吐量的数据密集型应用程序的 DRAM,常被用于高性能计算、网络交换及转发设备等需要高存储器带宽的领域。那么 HBM 到底优势在哪呢?通过 TSV 技术,堆叠方案解决内存墙的问题。基于冯·诺依曼理论的传统计算机系统架构一直存在“内存墙”的问题。

a9c65a68-907d-11ef-a511-92fbcf53809c.png

HBM 通过硅中介层和 TSV 来运行

主要归因于:第一存储与计算单元分离,存储与处理器之间通过总线传输数据,这容易导致存储的带宽计算单元的带宽,从而导致 AI 算力升级较慢;

第二,是高功耗,在处理器和存储之间频繁传输数据,会产生较多的能耗,也会使传输速率下降。相较于传统 GDDR,HBM 具有更高速,更低耗,更轻薄等诸多优点。HBM 凭借独特的 TSV 信号纵向连接技术,其内部将数个 DRAM 芯片在缓冲芯片上进行立体 堆叠,其内部堆叠的 DDR 层数可达 4 层、8 层以至 12 层,从而形成大容量、高位宽的 DDR 组合阵列。

a9db7556-907d-11ef-a511-92fbcf53809c.png

GDDR 与 HBM 结构分布

TSV 是在 DRAM 芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片的技术。该技术在缓冲芯片上将数个 DRAM 芯片堆叠起来,并通过贯通所有芯片层的柱状 通道传输信号、指令、电流。相较传统封装方式,该技术能够缩减 30%体积,并降低 50% 能耗。

凭借 TSV 方式,HBM 大幅提高了容量和位宽(I/O 数量)。与传统内存技术相比,HBM 具有更高带宽、更多 I/O 数量、更低功耗、更小尺寸等特征。

具体来看:(1)存储带宽问题:由于存储的制成与封装工艺与 CPU 的制成封装工艺不同,CPU 使用的是 SRAM 寄存器,速度快,双稳态威廉希尔官方网站 ,而存储器使用的是 DRAM 寄存器,速度慢,单稳态威廉希尔官方网站 。这样的工艺不同拉大了两者间的差距,在过去 20 年内,CPU 的峰值计算能力增加了 90000 倍,内存/硬件互存宽带却只是提高了 30 倍。存储的带宽通过总线一直限制着计算单位的带宽,最新型的 GDDR6 单颗带宽上限在 96GB/s,而最新型的单栈HBM3E 带宽上限近 1.2TB/s,在 AI 应用中,每个 SoC 的带宽需求都会超过几 TB/s,上百倍的数据传输差距使得传统 DRAM 远不能满足 AI 训练所需的算力缺口。(2)传输效能问题:由于分离距离问题,数据存算间(I/O)会有很大的延误,一步数据计算过后的大部分时间都在读取内存,查询所用的大量时间与吞吐量影响用户体验,数据传输能量消耗占总数据存算的 60-90%,严重浪费效能。(3)占用空间问题:传统 GDDR 由于是 2D 平面分布,占用空间大,无法满足目前消费电子轻量化与便携化的需求。

a9fd76a6-907d-11ef-a511-92fbcf53809c.png

传统打线与 TSV 穿孔区别

aa175abc-907d-11ef-a511-92fbcf53809c.png

GDDR 与 HBM 占用空间对比

HBM 包括多层 DRAM 芯片和一层基本逻辑芯片,不同 DRAM 以及逻辑芯片之间用 TSV 与微凸 块技术实现通道连接,每个 HBM 芯片可与多达 8 条通道与外部连接,每个通道可单独访问 1 组 DRAM 阵列,通道间访存相互独立。逻辑芯片可以控制 DRAM 芯片,并提供与处理器芯 片连接的接口,主要包括测试逻辑模块与物理层(PHY)接口模块,其中 PHY 接口通过中 间介质层与处理器直接连通,直接存取(DA)端口提供 HBM 中多层 DRAM 芯片的测试通道。

中间介质层通过微凸块连接到封装基板,从而形成 SiP 系统。

aa332ee0-907d-11ef-a511-92fbcf53809c.png

HBM 架构详解

aa5fbb9a-907d-11ef-a511-92fbcf53809c.png

HBM3 在 NVIDIA Hopper 架构的应用AI 时代存力的首选自 ChatGPT 爆火之后,国内外大厂争相竞逐 AI 大模型。而 AI 大模型的基础,就是靠海量 数据和强大算力来支撑训练和推理过程。其中一些模型有 1000 亿字节的数据,参数量越 大,AI 模型越智能,以 GPT-4 模型为例有近 1.76 万亿参数量。

对于每次重新训练的迭代, 都必须从数据中心背板的磁盘上取出 1000 亿字节的数据并进入计算盒,在为期两个月的训练中,必须来回调取数百万次如此庞大的数据。如果能缩短数据存取,就会大大简化训 练过程。但在过去 20 年中,存储和计算并没有同步发展,硬件的峰值计算能力增加了 90000 倍,而内存/硬件互连带宽却只是提高了 30 倍。

当存储的性能跟不上处理器,对指令和数 据的搬运(写入和读出)的时间将是处理器运算所消耗时间的几十倍乃至几百倍,这就要 打破“内存墙”。此时,高带宽内存 HBM 应运而生,被认为是 AI 计算的首选内存。

aa977a4e-907d-11ef-a511-92fbcf53809c.png

GDDR 与 HBM 性能对比

aab3aba6-907d-11ef-a511-92fbcf53809c.png

不同内存类型之间 DRAM 容量和带宽的差异 HBM 解决了传统 GDDR 遇到的“内存墙”问题,采用了存算一体的近存计算架构,不通过外部连线的方式与 GPU/CPU/Soc 连接,而是通过中间介质层紧凑快速地连接信号处理器芯片,极大的节省了数据传输所使用的时间与耗能。 而在空间占用上,HBM 采用的堆 栈技术会使得在空间占用要比同比传统 GDDR 节省 94%。在应对目前云端 AI 的多用户, 高吞吐,低延迟,高密度部署需求所带来的计算单位需求,I/O 数量也需要不断突破满足 计算单位的需求。使用 GDDR 所适配的 PCB 技术并不能突破 I/O 数量瓶颈,而 HBM 的 TSV 技术带来的存储器集成度极大提升,使得带宽不再受制于芯片引脚的互联数量,在一定程度上解决了 I/O 瓶颈,成为高算力芯片的首选。

aac982b4-907d-11ef-a511-92fbcf53809c.png

HBM 在 GPU 中搭配

aaf6a4ba-907d-11ef-a511-92fbcf53809c.png

HBM 与 GPU 集成在一起2 NVIDIA 和 AMD 依靠 HBM 持续提升 GPU 性能HBM 新型存储器较传统 GDDR 具有更高的带宽,更低的延迟和更好的等效比。随着 AI 对算 力的高要求,高带宽内存显然是高性能 GPU 的最佳搭配,AMD 和 NVIDIA 两家尖端的 GPU 都陆续配备了 HBM。

ab14553c-907d-11ef-a511-92fbcf53809c.png

NVIDIA 不同 GPU 型号搭载 HBM 情况

ab376766-907d-11ef-a511-92fbcf53809c.png

AMD 不同 GPU 型号搭载 HBM 情况 NVIDIA 已在搭载 HBM 的 GPU 型号上迭代 5 次,性能也在不断跟进以适配 AI 模型与训练的 需求。在 7 年时间内,从 V100 架构时代搭载的 HBM2 已经演化到了 GB200 的 HBM3E,而内 存宽带与容量则是在这几年内翻了数倍。

以同一 Hopper 架构下的 H100 SXM 和 H200 SXM 为例,在其他硬件条件与接口协议相同的情况下,搭载了 HBM3E 的 H200 SXM 要比搭载了 HBM3 的 H100 SXM 在带宽速率上提升了 43%,在容量上也是扩增了 76%。而对比落后了一 整代,搭载了 HBM 2E 的 A100 SXM,带宽速率更是提高了 141%,所有的这一切提升都是 HBM 性能迭代带来的优势。

ab50afaa-907d-11ef-a511-92fbcf53809c.png

随着搭载 HBM 容量提升 GPU 效能倍数提升

ab5bcfb6-907d-11ef-a511-92fbcf53809c.png

H200 较 H100 在大模型领域性能提升情况 归因于 AI 大模型的逐步迭代,GPU 迭代速度加快。核心供应商 NVIDIA 和 AMD 新品性能竞 争,预计 2025 年加速 HBM 规格需求大幅转向 HBM3e,且将会有更多 12hi 的产品出现,带 动单芯片搭载 HBM 的容量提升。根据 TrendForce 集邦咨询预估,2024 年的 HBM 需求位元 年成长率近 200%,2025 年可望将再翻倍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DRAM
    +关注

    关注

    40

    文章

    2315

    浏览量

    183477
  • 存储
    +关注

    关注

    13

    文章

    4311

    浏览量

    85839
  • HBM
    HBM
    +关注

    关注

    0

    文章

    380

    浏览量

    14753

原文标题:AI时代核心存力 HBM(上)

文章出处:【微信号:闪德半导体,微信公众号:闪德半导体】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI需求的暴增,HBM和GDDR SDRAM成为AI芯片新的内存方案

    然而在此过程中,我们除了看到AI对算的要求以外,内存带宽也是限制AI芯片发展的另一个关键要HBM2E成为了AI芯片的一个优先选择,这也是英
    发表于 11-09 12:45 2780次阅读

    HBM抢单大战,才刚刚拉开帷幕

    市场非常吃香的 HBM 内存。   AI 芯片带来的 HBM 热潮   在 AI 芯片的设计中,除了需要先进工艺和先进封装在有限的面积下提供足够的算
    的头像 发表于 12-13 01:27 1633次阅读
    <b class='flag-5'>HBM</b>抢单大战,才刚刚拉开帷幕

    被称为“小号HBM”,华邦电子CUBE进阶边缘AI存储

    ,分享了华邦推出的CUBE产品在边缘AI的应用优势以及对存储应用市场的看法等话题。   CUBE :小号HBM   “华邦电子近两三年都在推CUBE产品,我们可以把CUBE形象地看作小号的H
    的头像 发表于 07-01 16:21 3068次阅读

    大模型时代的算需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的算,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    【AD新闻】AI时代,一美元能够买到多强的算

    、数据和算,并称为新AI时代三大驱动力。如何在追求更好性能的同时实现低功耗、低延迟和低成本,逐渐成为摆在所有AI从业者面前的艰巨挑战之一。日前,深鉴科技ASIC副总裁陈忠民应邀在“2
    发表于 03-23 15:27

    AI核心是什么?

    AI概念笼统,范围广大,到底什么才是AI核心?手把手教你设计人工智能芯片及系统(全阶设计教程+AI芯片FPGA实现+开发板)详情链接:http://url.elecfans.com/
    发表于 10-18 06:39

    嵌入式系统的核心竞争是什么

    不管是什么技术想要有自己的发展前景就要有自己的有点在现在这这个技术快速发展的时代必须要有自己的核心竞争才会有好的发展空间。接下来呢我们就来看一下嵌入式系统的核心竞争
    发表于 11-08 08:46

    英伟达全球首发HBM3e 专为生成式AI时代打造

    2023年8月8日,NVIDIA创始人兼CEO黄仁勋在计算机图形年会SIGGRAPH发布了HBM3e内存新一代GH200 Grace Hopper超级芯片。这款芯片被黄仁勋称为“加速计算和生成式AI
    的头像 发表于 08-11 16:29 1172次阅读

    全面分析服务器/AI计算的算框架

    NAND、DRAM等核心存储器在制程方面临近极限,不断探索“3D”等多维解决方案。HBM基于其高宽带特性,成为了高性能GPU的核心组件,市场前景广阔。
    发表于 11-20 16:19 661次阅读
    全面分析服务器/<b class='flag-5'>AI</b>计算的算<b class='flag-5'>力</b>框架

    需求催生存风口,HBM竞争从先进封装开始

    无疑是今年最火热的高端存储产品。   在AI芯片需求不减竞争加剧的背景下,全球最大的两家存储器芯片制造商三星和SK海力士都在积极扩大HBM产量抢占AI芯片存风口。与此同时,作为
    的头像 发表于 12-03 08:34 2383次阅读

    大算芯片里的HBM,你了解多少?

    内外人士的视野和传统的GDDR相比,HBM不仅仅提供了更大的位数宽度,而且通过TSV和Interposer的连接方式,大幅降低了数据通讯的能量损耗。这对于大算芯片的
    的头像 发表于 12-05 16:14 1792次阅读
    大算<b class='flag-5'>力</b>芯片里的<b class='flag-5'>HBM</b>,你了解多少?

    大模型时代必备存储之HBM进入汽车领域

    大模型时代AI芯片必备HBM内存已是业内共识,存储带宽也成为AI芯片仅次于算的第二关健指标,甚至某些场合超越算
    发表于 12-12 10:38 1270次阅读
    大模型<b class='flag-5'>时代</b>必备存储之<b class='flag-5'>HBM</b>进入汽车领域

    中国AI芯片和HBM市场的未来

     然而,全球HBM产能几乎被SK海力士、三星和美光垄断,其中SK海力士占据AI GPU市场80%份额,是Nvidia HBM3内存独家供应商,且已于今年3月启动HBM3E量产。
    的头像 发表于 05-28 09:40 927次阅读

    亿铸科技熊大鹏探讨AI大算芯片的挑战与解决策略

    在SEMiBAY2024《HBM与存储器技术与应用william hill官网 》,亿铸科技的创始人、董事长兼CEO熊大鹏博士发表了题为《超越极限:大算芯片的技术挑战与解决之道》的演讲,深入剖析了AI大模型
    的头像 发表于 10-25 11:52 394次阅读

    AI时代核心存HBM(中)

    HBM 对半导体产业链的影响1. HBM核心工艺在于硅通孔技术(TSV)和堆叠键合技术 硅通孔:TSV(Through-Silicon Via) 是一种能让 3D 封装遵循摩尔定律演进的互连技术
    的头像 发表于 11-16 09:59 347次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>时代</b><b class='flag-5'>核心存</b><b class='flag-5'>力</b><b class='flag-5'>HBM</b>(中)