先进封装技术-19 HBM与3D封装仿真

描述

  先进封装技术(Semiconductor Advanced Packaging) - 1 混合键合技术(上)

  先进封装技术(Semiconductor Advanced Packaging) - 2 混合键合技术(下)

  先进封装技术(Semiconductor Advanced Packaging) - 3 Chiplet 异构集成(上)

  先进封装技术(Semiconductor Advanced Packaging) - 4 Chiplet 异构集成(下)

  先进封装技术(Semiconductor Advanced Packaging) - 5 TSV 异构集成与等效热仿真

  先进封装技术(Semiconductor Advanced Packaging) - 6 扇出型晶圆级封装(FOWLP)

  先进封装技术(Semiconductor Advanced Packaging) - 7 扇出型板级封装(FOPLP)

  先进封装技术(Semiconductor Advanced Packaging) - 8 3D封装与TSV技术

  先进封装技术(Semiconductor Advanced Packaging) - 9 堆叠封装(PoP)技术

  先进封装技术(Semiconductor Advanced Packaging) - 10 2.5D封装与异构集成技术

  先进封装技术(Semiconductor Advanced Packaging) - 11 SiP 系统级封装

  先进封装技术(Semiconductor Advanced Packaging) - 12 表面贴装技术 SMT

  先进封装技术(Semiconductor Advanced Packaging) - 13 倒装封装 Flip Chip

  先进封装技术(Semiconductor Advanced Packaging) - 14 光电共封技术(CPO) (上)

  先进封装技术(Semiconductor Advanced Packaging) - 15 光电共封技术(CPO) (下)

  先进封装技术(Semiconductor Advanced Packaging) - 16 硅桥技术(Si Bridge)(上)

  先进封装技术(Semiconductor Advanced Packaging) - 17 硅桥技术(Si Bridge)(下)

  先进封装技术(Semiconductor Advanced Packaging) - 18 TGV 玻璃通孔技术

  HBM的结构

  当代电子计算机的性能表现依赖于 CPU 和 DRAM 的协同配合,在计算机架构中,计算处理单元根据指令从内存中读取数据,完成计算处理后将数据存回内存。目前主流 CPU 的主频高达 5GHz,而 DRAM内存性能取决于电容充放电速度以及 DRAM 与 CPU之间的接口带宽。在高性能计算、数据中心、AI 应用中,顶级高算力芯片的数据吞吐量峰值在数百TB/s级别,但主流 DRAM 内存或显存带宽一般为几GB/s到几十GB/s量级,与TB/s量级还有较大差距。DRAM 内存带宽已经成为了制约计算机性能发展的重要瓶颈,即所谓阻碍性能提升的内存墙。

  

仿真

  HBM 堆叠结构如上图所示,包含多层 DRAM 芯片和一层基本逻辑芯片。4层或8层甚至更多层数的 DRAM 芯片以堆叠形式整合在一起,不同 DRAM 芯片之间以及 DRAM 芯片与逻辑芯片之间用 TSV 和微凸块技术实现通道连接。每个 HBM DRAM 芯片可通过多达 8 条通道与外部相连,每个通道可单独访问1 组 DRAM 阵列,通道间访存相互独立。逻辑芯片可控制 DRAM 芯片,并提供与控制器芯片连接的接口,主要包括测试逻辑模块和 PHY 模块,其中 PHY 接口通过中间介质层与 CPU/GPU/SoC 直接高速连通,直接存取端口提供 HBM 中多层 DRAM 芯片的测试通道。中间介质层通过微凸块连接到封装基板,从而形成 SiP 系统。

  

仿真

  HBM 堆栈没有以外部互连线的方式与信号处理器芯片连接,而是通过中间介质层紧凑而快速地连接,同时 HBM 内部的不同 DRAM 采用 TSV 实现信号纵向连接,HBM 具备的特性几乎与片内集成的RAM 存储器一样。

  HBM 具有可扩展更大容量的特性。HBM 的单层DRAM芯片容量可扩展。HBM通过4层、8层以至12层堆叠的 DRAM 芯片,可实现更大的存储容量。HBM可以通过 SiP 集成多个 HBM 叠层 DRAM 芯片,从而实现更大的内存容量。

  HBM 由于采用了 TSV 和微凸块技术,DRAM 裸片与处理器间实现了较短的信号传输路径以及较低的单引脚I/O速度和I/O电压,使 HBM 具备更好的内存功耗能效特性。

  HBM 将原本在 PCB 板上的DDR 内存颗粒和 CPU 芯片一起全部集成到SiP 里,因此 HBM 在节省产品空间方面也更具优势。

  从 HBM1 到 HBM4 的技术发展

  2013 年 10 月,JEDEC 发布了第一个 HBM 标准JESD235。JESD235 标准定义了具有 1024bit 接口和单引脚 1Gbit/s 数据速率的 HBM1 存储芯片,该芯片堆叠了 2个或4个 DRAM,HBM1 堆叠 DRAM 架构如下图所示,在基本逻辑芯片上,每个 DRAM 芯片具有 2个128bit 通道,共有8个阵列(B0~B7),最多支持 8个128bit 通道(CH0~CH7),总带宽为128GB/s。每个通道实质上是具有 2n 预取架构的 128 bit DDR 存储器接口,主要包括128 bit数据、8 bit 行命令地址和 6bit 列命令地址、源同步时钟、校验、数据屏蔽等信号,还包括复位、IEEE1500 测试端口和电源等公共信号。访存的读、写操作过程基本与DDR存储器芯片相同。HBM1 芯片具备半独立的行、列命令接口,支持读、写命令与其他命令并行执行,增加了命令接口带宽,提高了访存性能。

  

仿真

  2014年,SK Hynix 与 AMD 联合开发了全球首款 HBM 产品。HBM1 的工作频率约为 1600Mbps,漏极电源电压为 1.2V,芯片密度为 2Gb。HBM1 的带宽高于 DDR4和GDDR5 产品,同时以较小的外形尺寸消耗较低的功率,更能满足 GPU 等带宽需求较高的处理器。AMD 采用 HBM1 构建了其GPU 系统封装和 RadeonR9Fury/R9Nano 视频卡。

  

仿真

  2018 年 11 月,JEDEC 在 JESD235A 的基础上发布了 JESD235B 标准,即HBM2 技术。HBM2 充分融入了I/O高带宽存储技术、TSV工艺,支持最多12层的TSV堆叠,单片容量达到 16Gbit,使用 1024bit 总线,分成 8个相互独立的 128bit 通道,单引脚数据速率提升到 2.4Gbit/s,总带宽达到 307GB/s。HBM2 可以在全带宽下支持 2层、4层、8层和12层的 TSV堆栈,从而使系统在容量要求方面具有灵活性,堆栈容量为1GB和24GB。

  相对于 SK Hynix 主导研发的 HBM1 存储芯片,三星、镁光等公司也都推出HBM2产品,且三星更为领先。

  2020 年 1 月,JEDEC 更新发布 HBM 技术标准JESD235C,并于 2021 年 2 月更新为 JESD235D,以支持增加的带宽和容量,即 HBM2E。按照HBM2E 技术规范,单片最大容量为 16Gbit,支持 2层、4层、8层和12层的 TSV 堆栈,无标准高度限制,最大堆栈容量为 24GB,单引脚的数据传输速率提升到 3.2Gbit/s,匹配 1024bit 总线,单堆栈理论最大带宽为410GB/s。

  2020 年,三星推出 Flashbolt HBM2E 内存,堆叠 8个 16Gbit DRAM 芯片,使用 TSV 技术实现 8 芯片堆栈配置互连。

  

仿真

  2022 年 1 月,JEDEC 发布了 HBM3 高带宽内存标准 JESD238,即第四代 HBM 技术。HBM3在带宽、通道、存储密度、可靠性、能效等层面进行了扩充升级。定义了高达 6.4Gbit/s的数据传输速率,相当于819GB/s。将独立通道的数量从 HBM2 的8个增加到16个。支持4层、8层和12层 TSV 堆栈,并为未来扩展至 16层TSV堆栈做好了准备,支持8~32Gbit的单层存储容量,堆栈容量为 4~64GB。HBM3 引入了 ECC 技术,支持实时错误报告,满足更高级平台的可靠性、可用性和可维护性需求。I/O电压降低至1.1V,能效进一步提升。

  

仿真

  在 HBM3标准推出前,SK Hynix 就推出了 HBM3内存。SK Hynix 在 2021 年 10 月开发出全球首款 HBM3,容量是 HBM2E 的1.5倍,由 12个 DRAM 芯片堆叠成,总封装高度相同,适用于AI、HPC等容量密集型应用。如下图所示,Nvida H100 是世界上第一个正式使用 HBM3 技术的芯片。

  

仿真

  目前,JEDEC 即将发布 HBM4 标准,与 HBM3 相比,HBM4 将每个堆栈的通道数增加一倍,并且物理占用空间更大。为了支持设备兼容性,该标准确保单个控制器可以在需要时同时与 HBM3 和 HBM4 配合使用。不同的配置将需要不同的中介层来适应不同的封装。HBM4 将指定 24 Gb 和 32 Gb 层,并可选择支持 4 层、8 层、12 层和 16 层 TSV 堆栈。

  

仿真

  HBM 的迭代和制造已经开启竞速模式。有消息称,为了配合英伟达的新品发布节奏,SK Hynix 原计划 2026 年量产的 HBM4,将提前至 2025 年下半年量产,采用台积电 3nm 制程。三星也被传出计划在 2025 年年底完成 HBM4 开发后立即开始大规模生产,目标客户包括微软和Meta。

  HBM 3D 封装仿真

  下图所示为 CASE 中模拟的单个 3D 堆叠封装 HBM。有 12 个 DRAM 芯片堆叠在逻辑芯片的顶部。基础逻辑芯片顶部有模塑料,围绕着 12 个 DRAM 芯片堆栈,单个 HBM 通过 C4 凸块或带有底部填充的铜柱微凸块连接到有机基板上。有机基板具有多层有机堆积膜和 Cu 层,BGA 焊球位于有机基板的底部,用于 PCB 表面贴装。

  

仿真

  稳态热仿真使用 Cadence 的 Celsius Electronic Cooling 工具进行设置和执行。

  如下图所示,逻辑芯片尺寸为 15×15 mm,在长度和宽度上比 HBM 芯片尺寸大 5 mm。HBM 芯片堆栈仅略微远离逻辑芯片顶部的中心。TIM 材料直接连接到 HBM 芯片堆栈顶部的裸芯片上,并连接到顶部的冷板上。

  

仿真

  

仿真

  如下图所示,逻辑芯片的总功耗为 47 W,HBM 内核芯片堆栈的总功耗为 15 W,因此封装的总功耗为 62 W。

  

仿真

  边界条件根据几何顶部和底部表面的有效传热系数设置,考虑到液体冷却,冷板顶部的有效传热系数为 5000 W/m2K,液体入口温度为 32度,基板底部为 10 W/m2K。

  热仿真有助于定位逻辑芯片内部的热点。如下图所示,热点出现在逻辑芯片的边缘,这主要是因为,与中心区域相比,边缘区域在较小的区域集中了更多的功率,并且在中心区域,HBM 堆栈通过直接传导到连接到冷板的 TIM 带走热量,然而,对于边缘,传导路径主要通过不提供高导热性的成型材料。

  

仿真

  如下图所示,将冷板顶部的传热系数增加到 10000 W/m2K 后,热点温度降低了 15.74%,热点仍然出现在边缘。

  

仿真

  如下图所示,在逻辑芯片顶部添加dummy die有助于将温度降低 14.75%,并使温度更均匀地分布在逻辑芯片上,HBM 下方的区域比其他区域略热。

  

仿真

  如下图所示,在四个 HBM 的情况下,热点仍然出现在逻辑芯片的边缘,但与一个 HBM 的情况相比,热点的绝对温度实际上降低了 1%。这是因为该封装的基板、TIM 和冷板尺寸较大,从逻辑芯片带走了更多的热量。

  

仿真

  事实证明热仿真技术在预测热点方面是卓有成效的,因此可以通过更新冷却解决方案或封装结构来提出进一步的改进方案。


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分