还没用上HBM2E？HBM3要来了

21克888 2021-08-23 1906

存储技术

609人已加入

描述

2020年2月，固态存储协会(JEDEC)对外发布了第三版HBM2存储标准JESD235C，随后三星和SK海力士等厂商将其命名为HBM2E。

相较于第一版（JESD235A）HBM2引脚的2Gbps，HBM2E将这一速度提升到了3.2Gbps，并且单堆栈12 Die能够达到24GB的容量，理论最大带宽410GB/s。同时，按照设计规范，对于支持四堆栈的图形芯片来说，总带宽高达1.64TB/s。

过往，三星和SK海力士在HBM内存领域占据领先地位。目前，各大内存厂商在HBM2E层面已经开始铺货。就以SK海力士的节点来看，2020年7月2日，SK海力士才对外宣布开始量产超高速DRAM HBM2E，这是一款具有 460GB/s 带宽的高带宽内存来自使用硅通孔 (TSV) 的垂直堆叠 DRAM 芯片，针对深度学习加速器和 AI 系统优化，面向服务器、物联网、消费电子和汽车领域。

从时间上来看，外界公布HBM2E的时间节点是2020年2月，SK海力士的量产时间是7月份，而三星就更快了，同样是在2月份就已经对外发布首款HBM2E显存。

虽然HBM2E的标准参数很出色，但现在不得不说它已经过时了，现在HBM3的PHY、控制器和子系统方案已经面世。目前在JEDEC官网，JESD235D标准已经开始对会员企业免费开放。当然，该协议也支持开放购买，售价是274美元。

现在你不需要为获取HBM3参数去花费这些钱，和过往一样，参与制定标准的这些内存厂商已经迫不及待地对外公开HBM3的性能参数了。根据SK海力士在6月份公开的细节来看，过渡版的“HBM3”标准有望实现 5.2 Gbps的引脚传输速率，较现有的HBM2E提升44%，从而大幅提升整体的内存带宽。

但从Rambus公司目前实现的方案来看，SK海力士显然过于保守了，当然就如同上面提到的，SK公开的这个是一个过渡标准，并不是真正的HBM3，而Rambus选择一步到位实现HBM3。

8月17日，Rambus推出了其HBM3内存子系统解决方案，速率高达8.4 Gbps，单颗带宽达到了1.075TB/s。这个数据有多恐怖呢？我们参考一下上一代的HBM2E，在标准协议中，JEDEC的定义是引脚速度为3.2Gbps，单核带宽为410GB/s。在实际的实现过程中，不管是Rambus还是SK海力士，最终实现的方案都达到了3.6Gbps，单核带宽达到了460GB/s。

Rambus HBM2E子系统方案

因此，在HBM3方面，目前Rambus的方案在引脚速度和单核带宽上面，都实现了翻倍，这是此前产业界一直以来都觉得实现起来“太难了”的事情。

Rambus HBM3子系统方案

通过上面两个方案的对比，我们看到HBM2E和HBM3有一个明显的区别，那就是通道数，HBM3子系统方案具有 16 个独立通道，每个通道包含 64 位，总数据宽度为 1024 位。在最大数据速率下，这提供了 1075.2 GB/s 的总接口带宽，能够以更高的每瓦带宽效率为 AI/ML 和高性能计算 (HPC) 应用提供更高的整体吞吐量。

实际上，熟悉内存标准进程的人都很清楚，HBM3并不是这两年提出来的新鲜事物，早在2016年SK海力士、美光、三星等公司就讨论过HBM3标准。2015年，AMD推出全球第一款采用HBM高带宽显存的显卡之后，512GB/s的高带宽让业界为之震撼。此后不久，各个内存厂商就对HBM内存的演进路线做了规划，并提出了HBM3，甚至是HBM4。

通过AMD的技术方案能够总结出，HBM内存方案共有以下几点优势：功耗低、效率高，外形小巧。

在HBM面世之前，高性能内存更多是采用GDDR方案。直到AMD推出了HBM内存，GDDR5已经统治行业达7年之久，然而即便是GDDR方案，在带宽上也已经开始跟不上GPU的发展速度，成为系统性能提升的瓶颈。AMD在当时就曾提到，GDDR5如果要增加1 GB 的带宽将会带来更多的功耗，这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择。而HBM就像封装在和芯片集成的 RAM 一样，和GPU中介层紧凑而快速地连接，当时的HBM方案每瓦带宽比 GDDR5 高出 3 倍还多。

同时，从当时AMD揭露出的示意图能够看到，2.5D封装的方式让整体方案更小巧，当时的HBM 比 GDDR5 节省了 94% 的表面积。

图源：AMD官网

下图是AMD当年实现的方案，能够看到第一代HBM显存方案中，每一颗都采用四层Die进行堆叠，每个Die的容量为2Gb(256MB)，单颗容量为1GB，那么4颗堆叠的容量就是4GB。

图源：AMD官网

很显然，随着各种智能应用逐渐发展，4GB这个容量对于数据中心、高端显示和大型游戏等应用是完全不够，AMD在当时也确认了，HBM的内存容量会像带宽提升一样困难。不过容量问题没有束缚住HBM的发展，我们看到在美光的实现方案中，HBM2E内存八堆栈单Die容量16Gb，单颗HBM2E内存能够达到16GB的容量，4颗组合的话可以实现64GB。

说回到HBM3内存，Rambus现在已经处于领先位置，虽然目前JEDEC还没有对外公开HBM3的标准。

这里不得不说一个“但是”。但是，这并不能意味着HBM3将广泛占领显存市场。从市场情况来看，HBM还是主打高端市场，在HBM2阶段，Tesla V100 PCIe GPU采用的是16GB的HBM2内存，显存带宽高达 900 GB/s。而能够看到，诸如基于Turing架构搭载的TITAN RTX也还在使用GDDR6显存，容量为24GB，而GeForce RTX 30 系列 GPU全系列都是GDDR6显存。相对而言，AMD对于HBM内存的使用更为广泛，Radeon Pro Vega II 显卡搭载了32GB HBM2 显存，在Instinct 服务器解决方案同样采用了32GB的HBM2内存。但从“Pro”和“服务器”这样的标注来看，其主要还是面向高端应用，而在普通Radeon显卡方面还是以GDDR6为主。

其实，原因已经很明显了，虽然GDDR6单引脚的速度更快，但引脚数量太少了，因此HBM在系统带宽方面有着独特的优势，同时GDDR6的PHY面积更大（1.5倍左右），功耗也更高（4倍左右），也就是说GDDR5身上的劣势在GDDR6这里并没有改变。但优势也依然存在——GDDR6便宜，这个便宜不仅体现在单颗芯片价值上，同时在设计复杂度上也更低。因此，虽然HBM3来了，但依然只会面向高端市场。

打开APP阅读更多精彩内容