Chiplet,顾名思义就是小芯片,也称为芯粒或者晶粒。 简单来说,Chiplet技术就是像搭积木一样,把一些预先生产好的实现特定功能的芯片裸片(Chip)通过先进的集成技术封装在一起形成一个系统级芯片,而这些基本的裸片就是Chiplet。 Chiplet可以使用更可靠和更便宜的技术制造。较小的硅片本身也不太容易产生制造缺陷。此外,Chiplet芯片也不需要采用同样的工艺,不同工艺制造的Chiplet可以通过先进封装技术集成在一起。 设计一个SoC系统级芯片,传统方法是从不同的 IP 供应商购买一些 IP,软核、固核或硬核,结合自研的模块,集成为一个 SoC,然后在某个芯片工艺节点上完成芯片设计和生产的完整流程。 有了Chiplet概念以后,对于某些 IP,就不需要自己做设计和生产了,而只需要买别人实现好的硅片,然后在一个封装里集成起来。所以 Chiplet 可以看成是一种硬核形式的 IP,但它是以芯片的形式提供的,如下图所示。
我们可以这么理解:Chiplet 就是一个新的 IP 重用模式,是硅片级别的IP重用。
2.5D
2.5D本身是一种在客观世界并不存在的维度,因为其集成密度超越了2D,但又达不到3D的集成密度,取其折中,因此被称为2.5D。 在先进封装领域,2.5D是特指采用了中介层(interposer)的集成方式,中介层目前多采用硅材料,利用其成熟的工艺和高密度互连的特性。 虽然理论上讲,中介层中可以有TSV也可以没有TSV,但在进行高密度互联时,TSV几乎是不可缺少的,中介层中的TSV通常被称为2.5D TSV。 2.5D的整体结构如下图所示。
3D 和2.5D是通过中介层进行高密度互连不同,3D是指芯片通过TSV直接进行高密度互连。 大家知道,芯片面积不大,上面又密布着密度极高的威廉希尔官方网站 ,在芯片上进行打孔自然不是容易的事情,通常只有Foundry厂可以做得到,这也是为什么到了先进封装时代,风头最盛的玩家成了TSMC, Intel, Samsung这些工艺领先的芯片厂商。因为最先进的工艺掌握在他们手里,在这一点上,传统的OSAT是望尘莫及啊! 在芯片上直接生成的TSV则被称为3D TSV,3D的整体结构如下图所示。
先进封装
近些年,先进封装一直被看作拯救摩尔定律的神兵利器,虽然摩尔定律实际上是不可能被拯救的(关于这一点,我在新书的第一章中有详细的推导)。 但先进封装确实起了很大的作用,它有效地提升了封装体内的功能密度,在单位体积内集成了更多的功能单元。并且这些功能单元的互连很短,密度很高,因此性能也得到了很大的提升。 曾经有人用14nm工艺结合先进封装技术,做出了号称可以媲美7nm工艺的产品性能,可能吗? 还是有可能的!因为从产品(封装)的尺度来衡量,14nm+先进封装技术,其产品的功能密度有可能大于7nm+传统封装产品的功能密度。 既然先进封装这么神奇,那么什么是先进封装呢? 现阶段先进封装主要是指上面提到的2.5D封装,3D封装以及下图中的WLP(Wafer Level Package)晶圆级封装。
异构集成
异构集成,其全称为异构异质集成,含有异构和异质两重含义。 异构集成主要指将多个不同工艺单独制造的芯片集成到一个封装内部,以增强功能和提高性能,可以对采用不同工艺、不同功能、不同制造商制造的组件进行封装。例如下图所示:将7nm、10nm、28nm、45nm的Chiplet通过异构集成技术封装在一起。
异质集成则是指将不同材料的芯片集成为一体,可产生尺寸小、经济性好、设计灵活性高、系统性能更佳的产品。 如下图所示,将Silicon、GaN、SiC、InP生产加工的Chiplet通过异质集成技术封装到一起,形成不同材料的半导体在同一款封装内协同工作的场景。
SiP
SiPSystem-in-Package,是指在封装内形成一个系统,SiP 关注系统在封装内的实现,所以系统是其重点关注的对象。
至于是否采用了先进封装工艺,并不是SiP的关注重点,SiP可能采用传统的Wire Bonding工艺,也可能采用Flip Chip工艺,当然,SiP同样可能采用先进封装工艺。
随着系统对性能Performance、功耗Power、体积Volume(可简称为PPV,和IC设计中的PPA相对应)的要求越来越高,集成密度的需求也越来越高,SiP也会越来越多地采用先进封装工艺。
下图中对本文提到的Chiplet、2.5D、3D、SiP几个关键词进行了标识,供读者参考。Chiplet/Chip是封装中的单元,先进封装是由Chiplet/Chip组成的,2.5D和3D是先进封装的工艺手段,SiP则指代的是完成的封装整体。
3D Chiplet
另外,还有一个概念:3D Chiplet,这个概念应该是AMD在2021年6月份首先提出来的,应用在其3D V-Cache上,将包含有64MB L3 Cache的chiplet以3D堆叠的形式与处理器封装在了一起。
从结构上来讲,3D Chiplet就是将Chiplet通过3D TSV集成在一起。另外,为了提高互连密度,3D Chiplet采用了no Bump的垂直互连结构,因此其互连密度更高。
AMD的3D Chiplet工艺的实现是由TSMC代工的,TSMC称之为SoIC,属于其3D Fabric的产品范畴,其鲜明的特点就是采用了no Bump的高密度垂直互连结构,参看下图。
先进封装的发展
在过去的几年里,先进封装已经成为半导体中越来越普遍的主题。在这个系列中,SemiAnalysis将打破大趋势。我们将深入研究支持先进封装的技术,例如高精度倒装芯片、热压键合(TCB)和各种类型的混合键合(HB)。在本文中,我们将重点关注对技术的需求以及该行业为何向先进封装迈进。
首先让我们讨论一下先进封装的必要性。摩尔定律以迅猛的速度发展。自从台积电跳过 32nm 以来,直到目前的 5nm 工艺节点,台积电以每年 2 倍的速度增长晶体管密度。尽管如此,实际芯片的密度仍以每 3 年约 2 倍的速度增长。这种放缓的部分原因是由于 SRAM 缩放、功率传输和热密度的消亡,但这些问题大多与数据的输入和输出有关。
芯片上数据的输入和输出(IO)是计算的命脉。将内存放在芯片上有助于通过减少通信开销来减少 IO 需求,但归根结底,这是一个有限的扩展途径。处理器必须与外部世界进行交易以发送和接收数据。摩尔定律使业界晶体管密度大约每 2 年增加 2 倍,但 IO 数据速率仅为每 4 年 2 倍。几十年来,晶体管密度与IO 数据速率的差异已经大大不同。共同封装的光学器件只是解决这个问题的一种方法,它并不孤单。
从根本上说,芯片需要容纳更多的通信点或 IO 才能跟上。不幸的是,这方面的最后一个主要步骤功能增加是在 90 年代转向倒装芯片封装。
传统倒装芯片封装的凸点间距为 150 微米至 200 微米。这意味着每个 IO 单元在裸片的底侧相距 150 到200 微米。台积电 N7 将凸块间距降至 130 微米,而英特尔的 10nm 将凸块间距降至 100 微米,这方面有了一些增量改进。这些进步被称为细间距倒装芯片。不要小看这些进步,因为它们是更好处理器的巨大推动力,但 2000 年的封装技术与 2021 年的封装技术基本相同。
2000年的250mm²的芯片与2022年的250mm²芯片在晶体管数量、性能和成本方面有着难以置信的不同。摩尔定律每 2 年翻一番,表示晶体管数量增加了 2000 倍以上。显然,现实并不那么有利,但晶体管仍然增加了几个数量级。在硬币的另一面,封装没有享受同样水平的增长。
在台积电的 N7 节点上,AMD 的凸块间距从约200 微米变为 130 微米,IO 仅增加了 2.35 倍。如前所述,英特尔在 10 纳米工艺上从200 微米的凸点间距变为 100 微米,从而实现了更大的缩放。这仍然只会使 IO 增加 4 倍。2.35倍或4倍的增加是相对于晶体管数量增加的舍入误差。
这带来了焊盘限制设计的概念。将旧设计转移到新工艺节点时,设计本身可能会大幅缩小,但 IO 需求将阻碍芯片尺寸缩小多少。由于需要 IO,裸片尺寸仍然较大,但有空余空间。这些情况被称为垫受限,并且它们非常频繁。
顺便说一句,这不仅与将使用先进封装的前沿有关,而且与围绕汽车芯片和一般后沿半导体短缺的讨论有关。英特尔的 Pat Gelsinger 认为,这些短缺的公司应该过渡到英特尔 16nm 代工服务。
Pat Gelsinger表示,我们宣布在英特尔 16和爱尔兰工厂的其他节点上提供欧洲代工服务,我们相信这有机会帮助加速结束供应短缺,我们正在与汽车和其他行业合作帮助建立这些能力。但我也想说有些人可能会争辩说,好吧,让我们在旧节点上构建大部分汽车芯片。旧节点不需要一些旧晶圆厂吗?我们是想投资过去还是想投资未来?
一个新的晶圆厂需要 4 到 5 年的时间才能建成并具有生产价值。不是解决今天的危机,投资于未来,不要选择向后投资。相反,我们应该将所有设计迁移到新的现代节点,为未来增加供应和灵活性做好准备。
Intel的问题在于,当从古老的节点转移到相对现代的节点时,这些设计将受到pad限制。由于每 mm²的成本较高,单位成本经济学在这里不起作用,因为由于pad有限,芯片面积不能很好地缩放。除了这些成本之外,由于必须在较新的节点上重新设计旧芯片和整个重新认证过程,因此一次性成本也很高。将旧芯片移到新节点的解决方案是不可行的。
那么如何增加 IO 计数呢?
一种途径是寻找使芯片更大的方法。更大的区域意味着更多的 IO 空间。不是最好的路线,但设计人员会经常增加芯片上的内存,从而允许在芯片上存储更多数据。这反过来又在一定程度上减少了 IO 需求。AMD 最近的架构就是一个很好的例子,因为它们在 CPU 和 GPU 上都有巨大的缓存。
AMD 将其命名为 Infinity Cache。该解决方案是通过提供大量片上 SRAM 池来将与计算最相关的数据存储在处理器中,从而降低内存带宽需求。在 GPU 领域,AMD 明确表示他们能够通过添加无限缓存将 GDDR6 总线大小从 384 位减少到 256 位。苹果在这方面也很积极,在他们内部设计的处理器上塞进了大量的缓存。这些设计选择的一部分与功率有关,但很大一部分也是由于焊盘限制。
另一种途径是添加各种专用威廉希尔官方网站 以提高芯片效率。我们在异构计算的宝库中看到了这一点。回到我们的Apple A15 芯片分析,令人惊讶的是 CPU 或 GPU 专用的区域如此之小。这是讨论最多的两个方面。苹果没有专注于这些营销方面,而是将大量区域用于其他功能。虽然没有标注,但右下角主要是图像信号处理器。这块巨大的骰子正在执行与拍照和视频相关的计算。还有另一个与媒体编码和解码相关的计算相关的未标记块。在 SOC 周围,您可以找到这些相当小的统一矩形,它们是 SRAM 缓存,将更多数据保存在芯片上,而不必进入内存。
这些工作负载无法在经典 CPU 上运行。AI 模型的规模越来越大。Facebook 的深度学习推荐系统模型有超过 12 万亿个参数。不断膨胀的模型尺寸致力于让您在应用程序上停留更长时间并点击更多广告。谷歌开发了自己的芯片,用于在称为 TPU 的 AI 模型上进行训练和推理。随着新型处理器 VCU的出现,他们扩大了他们的芯片工作,如果专用于相同的任务,它能够替换 1000 万个 CPU。
亚马逊有定制的网络芯片,也运行他们的管理程序和管理堆栈。他们拥有自己的芯片,专门用于 AI 训练、AI 推理、存储控制和CPU。当您查看 Marvell 和 BroadcomASIC 服务的重点时,墙上的文字很清楚,硬件设计和架构的分解只会增加。
这些工作负载无法在经典 CPU 上运行。AI 模型的规模越来越大。Facebook 的深度学习推荐系统模型有超过 12 万亿个参数。不断膨胀的模型尺寸致力于让您在应用程序上停留更长时间并点击更多广告。谷歌开发了自己的芯片,用于在称为 TPU 的 AI 模型上进行训练和推理。随着新型处理器 VCU的出现,他们扩大了他们的芯片工作,如果专用于相同的任务,它能够替换 1000 万个 CPU。
亚马逊有定制的网络芯片,也运行他们的管理程序和管理堆栈。他们拥有自己的芯片,专门用于 AI 训练、AI 推理、存储控制和CPU。当您查看 Marvell 和 BroadcomASIC 服务的重点时,墙上的文字很清楚,硬件设计和架构的分解只会增加。
更多的芯片面积意味着更多的引脚、更多的集成功能,但这也是成本失控的绝妙方法。并且芯片尺寸已经达到极限。例如,看看英伟达或英特尔的数据中心阵容。两者都接近“标线限制”超过 5 年。即使他们愿意,他们也无法继续制造更大的芯片。芯片收缩已经大幅放缓,助长了这个问题。
因此,收缩已经放缓,芯片尺寸无法增长得更大,设计也受到pad的限制,这些是唯一的问题吗?
不幸的是,这不是唯一问题。硅单元经济学也遇到了障碍。半导体行业及其下游企业单枪匹马地推动了整个经济的通缩环境,抵消了其他地方的通胀行动。没有它,80 年代以来的美国和欧洲将经历无休止的滞胀。不过,这种变革性的通货紧缩力量正在遇到障碍。半导体单位经济没有改善。事实上,将晶体管缩小到更小,它们甚至变得更糟。制造大芯片不仅昂贵,而且比之前的一代更昂贵。
这张来自 AMD 的图表描绘了一幅非常病态的画面。虽然每个节点的转变并不相同,但很明显,在7nm 和 5nm 处,该行业已经达到了拐点。每产出平方毫米的成本增加幅度不是很小,而是很大。尽管节点转换带来了类似的密度增益,或者可能由于 SRAM 缩放速度放缓而更糟,但成本的增加并没有跟上。与每晶体管成本相关的趋势逆转令业界震惊。这种逆转具有巨大的影响,甚至导致无知的银行家以此为理由,下调台积电的评级,称其估值过高。
摩根士丹利认为,由于摩尔定律正在放缓,晶体管成本缩放已经停止,台积电的定价压力将减弱。摩根士丹利通过一张可笑的图表来证明这一点,该图表显示 5nm 的晶体管成本低于 7nm,这与业内专家形成鲜明对比。随着 FinFET 节点的引入,每个晶体管的成本停滞不前,7nm 完全趋于稳定,而 5nm 则比以往任何时候都高。我们的读者可以算一算,N7 晶圆约为 9500 美元,N5 晶圆约为16000美元。苹果的芯片尺寸几乎没有下降,但他们付了钱。
因此,每个晶体管的成本仍在增加,但对计算的需求比以往任何时候都增加。我们转向异构架构进行反击,但现在芯片设计过程要困难得多。该行业必须依靠许多拥有不同 IP 的团队按时交付并将其整合在一起。Synopsys 和 Cadence 等 EDA 供应商在协助方面做得非常出色,但这还不够。对于没有超过 1000 万个单元用例的任何人来说,一个可以购买特定应用 IP 或芯片并将其集成到硬件设计中的开放生态系统是必要的。即使对于这些公司,小芯片风格的系统架构也是答案。
随着我们继续收缩,预期收益率会缓慢下降。这是一个合乎逻辑的结论,因为每个连续的节点都会增加约 35% 的流程步骤。当前沿流程在数千个流程步骤中进行衡量时,错误开始迅速堆积。工业公司喜欢谈论“Six Sigma”,但这对半导体制造来说还不够。让我们假设一个有 2000 个工艺步骤的过程,每个步骤的每 cm²缺陷数为Six Sigma。那么D0(每 cm²缺陷率的行业术语)最终将是0.678。芯片越大,出现缺陷的可能性就越大。
如果这个假设的过程是构建英特尔的高端服务器 CPU,Ice Lake。这将导致每个晶片有 4 个良好的裸片和 76 个有缺陷的裸片。现在考虑这个分析是在 cm²水平上完成的,并且在前沿工艺节点上每 cm²有数十亿个晶体管。半导体行业比Six Sigma好得多。
除了尺寸的完美之外,还有什么解决方案?
Chiplets——小芯片!将大筹码分成许多小筹码。
AMD 是这方面最受欢迎的例子,但这是整个行业的趋势。AMD 可以设计 3 个芯片,一个CPU 核心小芯片和2 个 IO 芯片。这 3 种设计覆盖了很大一部分市场。同时,英特尔设计了 2 个 Alder Lake 台式机芯片和 3 个 Ice Lake 服务器芯片,以服务于相同的潜在市场。因此,AMD 可以节省设计成本,制造比英特尔更多内核的 CPU,并节省收益成本。
要演示 yield 参数,请参见下表。AMD将CPU 内核拆分为 8 个 CPU 内核小芯片。如果良率是 100%,英特尔将能够以比 AMD 更低的每个 CPU 内核的成本制造内核。但相反,英特尔必须在每个 CPU 内核上花费更多,因为更大的芯片有更多的缺陷。下表有一些明显的警告,其中最大的假设是缺陷芯片的收获率为 0,并且英特尔和台积电具有相同的 D0。这些假设都不是真的,这个练习是为了演示目的。
小芯片(Chiplet)很棒,但它不是孤立的解决方案。我们仍然遇到许多相同的问题。每个晶体管的成本仍在上升,设计成本飙升,由于需要更多 IO 来与其他芯片接口,小芯片被pad限制。由于 IO 限制,部分芯片无法拆分,因此芯片尺寸仍在达到峰值。
解决办法是什么?
先进封装!
这就是我们要注意的地方,一些工具供应商将所有倒装芯片封装称为“先进封装”。SemiAnalysis 和大多数业内下游人士不会这么说。因此,我们将所有凸点尺寸小于100 微米的封装称为“先进”。
最常见的先进封装类别称为扇出。有些人会争辩说它甚至不是先进的封装,但那些人大错特错。以Apple 为例,他们将让台积电采用应用处理器芯片,并将其与 90 微米到 60 微米数量级的更密集凸块封装到重组或载体晶圆/面板上。与传统倒装芯片封装相比,凸点密度大约高出 8 倍。
这种重组或载体晶圆/面板然后进一步展开 IO,因此得名扇出。然后将扇出封装连接到主板。硅芯片的设计可以减少对pad受限的担忧,因为扇出处的pad较小。该封装还可以封装 DRAM 内存、NAND 存储和PMIC。集成扇出不仅有利于密度,而且它们还在封装上保留了大量的芯片间 IO。否则,该 IO 将不得不以更大的IO 间距尺寸通过主板进行接口。
集成扇出对于高性能应用程序变得越来越普遍,不仅仅是移动应用程序。增长最快的用例是在十多年来设计一直受到限制的事物的网络方面。AMD 将在其服务器 CPU 和 GPU中非常积极地采用扇出。Tesla Dojo 1是集成扇出封装的另一个引人注目的例子,但在晶圆级。SemiAnalysis透露,特斯拉将在发布公告前使用这种包装类型。
在先进封装中,有 2.5D 和 3D 封装。2.5D 涉及封装在其他硅片上的硅片,但较低的硅片专用于布线,没有有源晶体管。这通常以55 微米到 50 微米的间距完成,因此凸点密度高出约 16 倍。最常见和最高容量的用例是具有 TSMC CoWoS(基板上晶圆上芯片)的 Nvidia 数据中心 GPU。台积电将有源芯片封装在只有互连和微凸点的晶圆上。然后使用传统方法将这叠芯片封装到基板上。
其他示例基本上包括每个带有 HBM 的处理器。HBM 是作为一种阶梯函数增加内存带宽的方法而建立的,这种方法高于传统形式的 DRAM。它通过使用更宽的内存总线来实现这一点。这些宽总线会产生与 IO 计数相关的问题,但 HBM 是从头开始设计的,以便在同一包内共存。这颠覆了 IO 问题,同时也允许更紧密的集成。
2.5D 的更多示例包括基于Intel EMIB 的产品、Xilinx FPGA、AMD 最新的数据中心 GPU 和Amazon Graviton 3。
3D 封装将一个有源芯片封装在另一个有源芯片之上。这最初是由英特尔提供的55 微米间距的逻辑硅片,但批量用例将是 36 微米或更小。台积电和 AMD 将推出 17 微米间距的 3d堆叠 V-cache。该技术从凸块转移到硅通孔 (TSV),并且具有更大的扩展空间。
索尼制造的 CMOS 图像传感器等其他应用已经采用 6.3 微米间距。为了继续进行比较,36 微米间距的凸块密度高 31 倍,以17 微米间距实现的铜 TSV 的 IO 密度高 138 倍,索尼的 6.3 微米间距的CMOS 图像传感器的 IO 密度高 567 倍标准倒装芯片。
这只是对主要封装类型的基本解释,但我们将深入研究本系列中的不同类型的封装。对未来的封装类型、工具以及工具供应商有很多不同的赌注。设备和 IP 方面比人们乍一看想象的要兴奋得多,但在我们深入研究之前,需要先解释基础知识。
对于即将到来的创新海洋,有很多可投资的想法和角度。摩尔定律的放缓正在推动根本性的变化。我们正处于先进封装推动的半导体设计复兴之中。
根据咨询机构Yole Developpement数据,2021年半导体厂商在先进封装领域的资本支出约为119亿美元。
该机构表示,2021年先进封装市场体量约为27.4亿美元,同时预测该市场到2027年将实现19%的复合年化增长率,届时先进封装市场体量将达到每年78.7亿美元。
根据该机构统计,2021年,英特尔投入35亿美元支持其先进封装技术Foveros和EMIB发展。
其他主要参与者包括在该领域投入30.5亿美元的台积电,以及投入20亿美元的日月光。日月光凭借其FoCoS产品,是目前唯一具有超高密度扇出解决方案的OSAT。
(图自英特尔)
先进封装存在于成本和吞吐量与性能和密度的连续统一体上。尽管对先进封装的需求显而易见,但来自英特尔(EMIB、Foveros、Foveros Omni、Foveros Direct)、台积电(InFO-OS、InFO-LSI、InFO-SOW、InFO-SoIS, CoWoS-S, CoWoS-R, CoWoS-L, SoIC), 三星 (FOSiP, X-Cube, I-Cube, HBM, DDR/LPDDR DRAM, CIS), 日月光 (FoCoS, FOEB), 索尼 (CIS)、美光 (HBM)、SK海力士 (HBM) 和 长江存储 (XStacking) 的先进封装类型和品牌数量惊人。我们经常谈论的AMD、Nvidia 等公司也都使用这些封装类型。
在本文中,我们将解释所有这些类型的封装及其用途。
倒装芯片是引线键合后常见的封装形式之一。它由来自代工厂、集成设计制造商以及外包组装和测试公司的众多公司提供。在倒装芯片中,PCB、基板或其他晶片将具有着陆焊盘。然后将芯片准确地放置在顶部,凸起与着陆焊盘接触,然后芯片被送到回流炉,回流炉加热组件并回流到凸块,将两者粘合在一起。之后焊剂被清除掉,底部填充物沉积在两者之间。这只是一个基本的工艺流程,有许多不同类型的倒装芯片,包括但不限于无助焊剂。
虽然倒装芯片非常普遍,但间距小于100微米的高级版本则不太常见。关于我们在第1部分中建立的先进封装的定义,只有台积电、三星、英特尔、Amkor和ASE涉及使用倒装芯片技术的大量逻辑先进封装。其中3家公司也在制造完整的硅晶圆,而另外两家公司则是外包组装和测试 (OSAT)。
这就是大量不同类型的倒装芯片封装类型开始出现的地方。我们将以台积电为例,然后扩展并将其他公司的封装解决方案与台积电的封装解决方案进行比较。台积电所有封装选项的最大区别在于基板材料、尺寸、RDL和堆叠。
在标准倒装芯片中,最常见的基板通常是有机层压板,然后用铜包覆。从这里开始,布线在两侧围绕核心构建,讨论最多的是味之素积层膜(ABF)。该内核在顶部构建了许多层,这些层负责在整个封装中重新分配信号和功率。这些承载信号的层是使用干膜层压和使用CO2激光器或紫外线激光器进行图案化构建的。
这就是台积电的专业知识开始在集成扇出 (InFO) 上发挥作用的地方。台积电没有使用ABF薄膜的标准流程,而是使用与硅制造更相关的工艺。台积电将使用东京电子镀膜机/显影器、ASML光刻工具、应用材料铜沉积工具以光刻定义再分布层。再分配层比大多数OSAT能够产生的更小、更密集,因此可以容纳更复杂的布线。此过程称为扇出晶圆级封装 (FOWLP)。ASE是最大的OSAT,提供FoCoS(基板上的扇出芯片),这是一种FOWLP形式,它也利用了硅制造技术。三星也有他们的扇出系统封装(FOSiP),主要用于智能手机、智能手表、通信和汽车。
借助 InFO-R (RDL),台积电可以封装具有高IO密度、复杂布线和多核芯片。使用InFO-R最常见的产品是苹果iPhone和Mac芯片,但也有各种各样的移动芯片、通信平台、加速器,甚至网络交换机ASIC。三星还凭借Cisco Silicon One在网络交换机ASIC扇出市场上取得了胜利。InFO-R所取得的进步主要与具有更多功耗和IO的更大封装尺寸相关。
有不少传言称AMD将为其即将推出的Zen 4客户端(如上图)和服务器CPU 提供扇出封装。SemiAnalysis可以确认基于Zen 4的桌面和服务器产品将使用扇出。然后,这个扇出将传统地封装在标准有机基板的顶部,该基板的底部有LGA 引脚。封装这些产品的公司以及转向扇出的技术原因将在后面揭晓。
标准封装将具有核心基板,然后在每侧有2到5级重新分布层 (RDL),包括更高级的集成扇出。台积电的InFO-SoIS(集成基板系统)将这一概念提升到了一个新的水平。它提供多达14个再分配层 (RDL),可在芯片之间实现非常复杂的布线。在靠近管芯的基板上还有一层更高密度的布线层。
台积电还提供InFO-SOW(晶圆上系统),它允许扇出一整片晶圆的大小,该晶圆可以封装几十块芯片。特斯拉Dojo1,它就利用了这种特殊的包装形式。特斯拉还将在HW 4.0上使用三星FOSiP。
最后,在台积电的集成扇出阵容中,还有InFO-LSI(本地硅互连)。InFO-LSI是 InFO-R,但在多个芯片下方有一块硅。这种局部硅互连将作为多个芯片之间的无源互连开始,但它可以在未来演变为有源(晶体管和各种IP)。它最终也将缩小到25微米,但我们认为第一代不会出现这种情况。第一个采用这种封装的产品将在后面展示。
脑海中浮现的最直接的对比很可能是英特尔的EMIB(嵌入式多芯片互连桥),但这并不是最好的选择。它更像英特尔的Foveros Omni或ASE的FOEB。让我们解释一下。
英特尔的嵌入式多芯片互连桥放置在传统的有机基板腔中,然后继续构建衬底。虽然这可以由英特尔完成,但EMIB的放置和构建也可以由传统的有机基板供应商完成。由于EMIB芯片上的大焊盘,以及沉积层压布线和通孔的方法,不需要在基板上极其精确地放置芯片。
英特尔通过继续使用现有的有机层压板和ABF供应链,放弃了更昂贵的硅基板材料和硅制造工艺。尽管目前由于短缺而非常紧张,但总的来说,这条供应链是商品化的。自2018年以来,英特尔的EMIB一直在出货,包括Kaby Lake G、各种FPGA、Xe HP GPU和包括Sapphire Rapids在内的某些云服务器CPU。目前所有EMIB产品都使用55微米,但第二代是45微米,第三代是40微米。
英特尔可以通过这个芯片将电源推送到上面的有源芯片。如果需要,英特尔还可以灵活地设计封装以在没有EMIB和某些小芯片的情况下运行。在英特尔 FPGA 的拆解后发现,如果英特尔发货的SKU 有要求,英特尔不会放置EMIB和有源芯片。这允许围绕某些部分的材料清单进行一些优化。最后,英特尔还可以通过仅在需要的地方使用硅桥来节省制造成本。这与台积电的CoWoS形成鲜明对比,后者的所有芯片都放置在单个大型无源硅桥的顶部。稍后会详细介绍,但台积电的InFO-LSI和英特尔的EMIB之间的最大区别在于基板材料和制造工艺的选择。
更复杂的是,日月光也有自己的2.5D封装技术,与英特尔的EMIB和台积电的InFO-LSI截然不同。它被用于AMD的MI200 GPU,该GPU将用于多台高性能计算机,包括美国能源部的Frontier exascale系统。ASE的FOEB封装技术与TSMC的InFO-LSI更相似之处在于它也是扇出。台积电使用标准硅制造技术来构建RDL,一个主要区别是ASE使用玻璃基板面板而不是硅。这是一种更便宜的材料,但它还有一些其他的好处,我们将在后面讨论。
ASE不是将无源互连管芯嵌入基板的空腔内,而是放置管芯,构建铜柱,然后构建整个RDL。在RDL之上,有源硅GPU芯片和HBM芯片使用微凸块进行连接。然后使用激光释放工艺将玻璃中介层从封装中移除,然后在使用标准倒装芯片工艺将其安装到有机基板上之前完成封装的另一面。
ASE 对 FOEB 与 EMIB 提出了许多想法,但有些是完全错误的。ASE 需要推销他们的解决方案是可以理解的,但让我们过滤掉噪音再来看看。EMIB的收益率不在80%到90%的范围内,EMIB的收益率接近100%。第一代EMIB在芯片数量方面确实存在缩放限制,但第二代没有。事实上,英特尔将发布有史以来最大封装的产品,这是一种采用第二代EMIB的 92毫米 x 92毫米BGA封装的先进封装。通过在整个封装中使用扇出和光刻定义的RDL,FOEB在布线密度和芯片到封装凸块尺寸方面确实保留了优势,但这也更加昂贵。
与台积电相比,最大的区别似乎是最初的玻璃基板材料与硅。部分原因可能是由于ASE的成本受到更多限制。ASE必须以更低的成本提供出色的技术来赢得客户的青睐。台积电是芯片大师,专注于他们熟悉的技术,台积电有将技术推向极致的文化,在这种推动下,他们最好选择硅。
现在回到台积电的其他先进封装选项。CoWoS平台还有CoWoS-R和CoWoS-L平台。它们与InFO-R和InFO-L几乎一比一对应。这两者之间的区别更多地与过程有关。InFO是一个芯片优先的工艺,首先放置芯片,然后构建围绕它构建RDL。使用CoWoS,先构建RDL,然后放置芯片。对于大多数试图理解先进封装的人来说,这种区别并不那么重要,所以今天我们将比较轻松地讨论这个话题。
最引人注目的是CoWoS-S(硅中介层)。它涉及采用已知良好的芯片,将其倒装芯片封装到无源晶圆上,该晶圆上具有图案化的导线。这就是CoWoS这个名字的由来,Chip on Wafer on Substrate。它是目前容量最大的2.5D封装平台。如第1部分所述,这是因为P100、V100和A100等英伟达数据中心GPU使用CoWoS-S。虽然英伟达的销量最高,但博通 TPU、亚马逊 Trainium、NEC Aurora、Fujitsu A64FX、AMD Vega、赛灵思 FPGA、Intel Spring Crest和Habana Labs Gaudi只是CoWoS使用的几个值得注意的例子。大多数采用HBM计算的重型芯片,包括来自各种初创公司的AI训练芯片都使用CoWoS。
为了进一步强调CoWoS的普及程度,我们要谈到AIchip。AIchip是一家中国台湾设计和IP公司,主要利用台积电的CoWoS平台进行与AI芯片相关的EDA、物理设计和产能工作。
台积电甚至没有参加CoWoS容量相关的所有会议,因为台积电已经销售了他们制造的所有产品,而且支持所有这些设计需要太多的工程时间。另一方面,台积电的客户集中度很高,因此台积电希望与其他公司合作。AIchip有点像中间人,即使一级客户预订了所有东西,AIchip仍然获得了一些库存量。但他们也只能得到他们想要的50%。
让我们来看看英伟达在做什么。在第三季度,他们的长期供应付款跃升至 69亿美元,更重要的是,英伟达预付了16.4亿美元,并将在未来再支付17.9美元。英伟达正在大量的超前预定供应产能,特别是针对CoWoS。
回到技术上,CoWoS-S多年来经历了演变,主要标志是中介层面积变大。由于 CoWoS平台使用硅制造技术,因此它遵守“光罩限制”的原则。使用193nm ArF光刻工具可打印的最大芯片尺寸为33mm x 26mm (858平方毫米 )。硅中介层被光刻定义其主要用途,就是连接位于其顶部的芯片的非常密集的电线。英伟达的芯片本身早已接近标线限制,但仍需要连接到封装的高带宽内存。
上图包含Nvidia V100,英伟达4年前推出的GPU,面积为 815平方毫米。一旦包含HBM,它就超出了光刻工具可以打印的光罩限制,但台积电想出了如何连接它们的办法。台积电通过光罩拼接的方法来实现这一点。台积电在这里增强了他们的能力,可以为硅中介层提供3倍大小的掩模版。鉴于标线缝合的局限性,英特尔EMIB、台积电LSI 和ASE FOEB方法具有优点。他们也不必为一个大型硅中介层支付高昂费用。
除了增加掩模版尺寸外,他们还进行了其他改进,例如将微凸块从焊料改为铜以提高性能/功率效率、iCap、新的TIM/lid封装等。
关于TIM/lid封装有一个有趣的故事。借助Nvidia V100,英伟达拥有了一个无处不在的HGX平台,该平台将运送到许多服务器ODM,然后发送到数据中心。可以应用于冷却器螺钉以实现正确安装压力的扭矩是非常具体的。这些服务器ODM在这些价值1万美元的GPU上过度拧紧了冷却器和芯片。英伟达将他们的A100换了一种封装,这种封装在芯片上有一个lid,而不是直接进行芯片冷却。当英伟达的A100和未来的Hopper DC GPU 仍然需要散发大量热量时,这种封装的问题就会出现。台积电和英伟达必须在封装上进行很多优化来解决这个问题。
三星也有类似于CoWoS-S的I-Cube技术。三星使用这种封装唯一主要客户是百度的人工智能加速器。
Foveros技术
接下来我们介绍Foveros,这是英特尔3D芯片堆叠技术。Foveros不是一个芯片在另一个芯片上处于活动状态,而是说另一个芯片本质上只是密集的电线,Foveros涉及两个包含有源元件的芯片。有了这个,英特尔的第一代Foveros于 2020年6月在Lakefield混合CPU SOC中推出。这款芯片并不是特别大的容量或令人叹为观止,但它是英特尔许多首创的芯片,包括3D封装和他们的第一个混合CPU内核具有大性能核心和小效率核心的架构。它使用了55微米的凸点间距。
下一个Foveros产品是Ponte Vecchio GPU,经过多次延迟,应该会在今年推出。它将包括与EMIB 和Foveros 一起封装的47个不同的有源小芯片。Foveros 芯片到芯片的连接采用36微米的凸点间距。
未来,英特尔的大部分客户端阵容将使用3D堆栈技术,包括代号Meteor Lake、Arrow Lake、Lunar Lake的客户端产品。Meteor Lake将是第一款具有 Foveros Omni和36微米凸点间距的产品。第一个包含3D堆栈技术的数据中心CPU代号为Diamond Rapids,紧随Granite Rapids而来。我们将在本文中讨论其中一些产品使用哪些节点以及英特尔与台积电的关系。
Foveros Omni的全称是Foveros Omni-Directional Interconnect (ODI)。它弥合了EMIB和Foveros之间的差距,同时还提供了一些新功能。Foveros Omni可以用作两个其他芯片之间的有源桥接芯片,作为完全位于另一个芯片下方的有源芯片,或在另一个芯片顶部但悬垂的有源芯片。
Foveros Omni 从未像EMIB那样嵌入到基板内部,它在任何情况下都完全位于基板之上。堆的类型会导致一个问题,即封装基板与位于其上的芯片连接高度不同。英特尔开发了一种铜柱技术,可让他们将信号和功率传输到不同的z轴高度并通过芯片,因此芯片设计人员在设计3D异构芯片时可以有更多的自由度。Foveros Omni 将以36微米的凸点间距开始,但在下一代将下降到 25 微米。
我们要注意的是,DRAM还使用了先进的3D封装。HBM多年来一直在三星、SK海力士和美光使用先进封装。这些存储单元被制造并连接到TSV上,这些 TSV被暴露出来并形成了微凸点。最近,三星甚至开始引入DDR5和LPDDR5X堆栈,它们利用类似的堆栈技术来提高容量。SK海力士HBM 3将把垂直堆叠的12个芯片混合键合,每个芯片的厚度为30微米,并带有混合键合TSV。
混合键合是一种不使用凸点的技术,芯片通过硅通孔直接连接。如果我们回到倒装芯片工艺,就不会有凸起形成、助焊剂、回流或模子下填充芯片之间的区域。铜直接与铜相遇。实际过程非常困难,上面部分详细介绍了这一过程。在本系列的下一部分中,我们将深入探讨工具生态系统和混合键合的类型。混合键合比之前描述的任何其他封装方法都能实现更密集的集成。
最著名的混合键合芯片当然是最近宣布的AMD 3D堆栈缓存,该芯片将于今年晚些时候发布。它利用了台积电的SoIC技术。英特尔的混合键合品牌名为Foveros Direct,三星的版本名为X-Cube。Global Foundries公布了使用混合键合的Arm测试芯片。销量最高的混合键合半导体公司不是台积电,今年甚至明年也不会是台积电。生产混合键合芯片最多的公司实际上是拥有CMOS图像传感器的索尼(Sony)。事实上,假设你有一部高端手机,你的口袋里可能就有一个包含混合键合CMOS图像传感器的设备。如第1部分所述,索尼已将间距缩小至6.3微米,而AMD的V-cache的间距为17微米。
目前,索尼推出了2堆栈和3堆栈版本。在2堆栈中,像素位于威廉希尔官方网站 的顶部。在3堆栈版本中,像素堆叠在威廉希尔官方网站 顶部的DRAM缓冲缓存的顶部。随着索尼希望将像素晶体管从威廉希尔官方网站 中分离出来,并用多达4层的硅制造出更先进的相机,进步仍在继续。上面的图片展示了索尼的顺序堆叠,其间距为0.7微米。
另一个即将到来的混合键合的大批量应用来自长江存储技术公司的Xtacking。长江存储使用晶圆对晶圆键合技术将CMOS外围堆叠在NAND门下方。我们在这里详细介绍了这项技术的好处,但简而言之,与包括三星、SK海力士、美光、Kioxia和西部数据在内的任何其他NAND制造商相比,它允许长江存储在给定NAND层数的情况下安装更多NAND单元。
先进封装的互联技术:UCIe——通用芯粒高速互连
什么是UCIe?
UCIe——通用芯粒高速互连(Universal Chiplet Interconnect Express,以开放的高级接口总线为基础,旨在推行开放的芯粒(Chiplet)间互连标准,称之为UCIe标准,由Intel首先提出,并将其作为一个开放规范,共享给联盟的创始成员。
UCIe标准定义了封装内芯粒之间的互连,以实现封装层级的开放芯粒生态系统和普遍的互连。
UCIe有哪些初始成员?
英特尔、日月光(ASE)、AMD、Arm、谷歌云、Meta、微软、高通、三星、台积电,共10个初始成员。 分别代表了Fabless、Foundry,OSAT和IP提供商四大领域。
UCIe带来封装级别的极致集成
我们知道,电子封装的历史(1947)比集成威廉希尔官方网站 (1958)早了11年,但封装内集成的历史却远远短于集成威廉希尔官方网站 ,大约比集成威廉希尔官方网站 晚了三十多年,但随着SiP、先进封装、Chiplet等技术的出现,封装内集成技术的发展速度非常迅猛。 UCIe标准的设立会带来封装级别极致的集成,例如英特尔Ponte Vecchio高性能GPU,就结合了5种工艺、47个不同功能的子芯片/芯粒,整体包含了超过1000亿个晶体管。
UCIe带来芯片设计思路的重大改变
在传统大规模集成威廉希尔官方网站 设计时,设计者把整个电子系统集成在一个芯片中,微处理器、模拟IP核、数字IP核,存储器或片外存储控制接口,都被集成在单一芯片上,形成一颗SoC上,并使用同一种工艺制造。
UCIe标准形成后,同样以设计一颗SoC为例,不用再把处理器、IP核、存储器或外存接口设计在同一个晶圆平面,而是可以把他们分别设计成不同的Chiplet,然后再通过先进封装技术封装在一起,形成一个完整的芯片系统。
请参考前期文章:集成威廉希尔官方网站 设计的“新思路”
UCIe带来集成威廉希尔官方网站 产业的重大变革
集成威廉希尔官方网站 产业包括芯片设计、芯片制造、封装测试三大领域,其代表厂商分别属于Fabless、Foundry、OSAT,目前,在UCIe的首发团队中都已经聚齐了。 另外,作为IP提供商的龙头企业arm也是UCIe初始成员,可以预测不远的将来,arm除了提供IP授权之外,也会提供Chiplet给芯片设计企业。 我们曾经给出过Chiplet的极简定义:当IP以硅片的形式提供时,就是Chiplet。
随着更多厂商的加入以及UCIe标准的成熟和推进,UCIe必将带来集成威廉希尔官方网站 产业的重大变革!
先进封装与异构集成
编辑:黄飞
评论
查看更多