近日,《乌合麒麟撤回道歉,称3D堆叠就是芯片优化技术》事件在网上引起争论,今天ASPENCORE记者欧阳洋葱同学进一步对“ 14nm + 14nm 达成‘比肩’7nm 性能的问题”展开了专业的分析。
原文如下:
说点题外话,大家就当看个热闹吧,既然说旧工艺的“叠加”,那咱就聊聊叠加嘛。
首先还是强调一点,现在所谓的几 nm 工艺,这个几 nm 的数字并不是指晶体管的 gate length(或沟道长度)——很多人对此是存在误解的。比如台积电的 7nm 工艺,晶体管并不存在任何一个物理参数是 7nm。7nm 只是一个代号,你也可以叫它 α nm。14nm、7nm 这样的称谓是历史原因造成的,对此有兴趣的可以看我的文章:为什么说Intel 10nm工艺比别家7nm先进?(上)
有关 14nm + 14nm 达成“比肩”7nm 性能的问题,稍带脑洞地说两点,也算是无聊闲扯吧。
第一是光刻技术的“叠加”。把光刻比做是一把雕刻刀,用现在的“光刻刀”,只下刀一次的话,其实是无法“雕刻”出你期望的晶体管大小的(包括 EUV),而需要下好几次刀。虽然这个“叠加”和某媒体所说的 14nm + 14nm 并不是同一回事,但反正 14nm 也不是真的 14nm(前面说了,这个数字没意义),所以开个脑洞也没什么。
比如说三星的 8nm(8LPP)工艺,这种工艺下金属堆栈部分的最小金属间距是 44nm。我们知道 8nm 工艺,在光刻这道工序上还没有应用 EUV 极紫外光,仍然是 DUV 深紫外光,ArF(argon fluoride)光源本身的波长是 193nm。
这把“光刻刀”不够锐啊,咋办呢?要克服衍射效应,“雕刻”更小的图案,业界其实是引入了多种技术的,包括“叠加”的双重曝光、四重曝光(quad patterning)之类的;也就是既然一次刻不出那么高的精度,那就多刻几次(当然还需要配合周边的很多技术)。
三星应用的是一种叫 LELE 的技术,也是 DUV 多重曝光的一种技术方向。其过程是这样的(以下资料来自 Wikichip,图片也来自 Wikichip,我只是搬运工;我之前被 Wikichip 警告过一次,所以这里大家多点链接去看看原文吧。。。):
首先呢就是像上图这样,要有衬底、图案层(device layer)、硬掩膜(hardmask)。假定我们的目标是 64nm 的金属互联间距,那么 LELE 的步骤大致是下面这张图这样的:
这个步骤的大致过程就是光刻胶(photoresist)在 mask 覆盖下曝光,形成需要的图案。
第一步,上方有个掩膜图案,在光源照射下,能做出 128nm 的间距(左上图:Litho 1)。第二步,将图案通过第一次蚀刻转到硬掩膜之上——残留的硬掩膜会作为后续步骤的掩膜存在。
第三步,用另一组掩膜图案和光刻胶,重复该过程,仍采用相同的 128nm 图案间距进行光刻。最后,再用硬掩膜和光刻胶作为蚀刻掩膜,二次蚀刻后就在下面的图案层形成了所需的图案。
由于两次 litho-etch(光刻-蚀刻)操作,就形成了 64nm 的互联间距。
不需要去深入研究这个过程,反正知道是通过了两次差不多的操作才达成了 64nm 间距的。其实三星在 8nm 节点上用了 LELELELE,也就是四次上述的 LE 操作。说人话就是要刻最多 4 次,才能刻出所需的精度。
当然了,这个过程难度颇大,需要克服的工程难点也很多;而且步骤越多,成本也会越高;所以才需要用更锐的“光刻刀”嘛,比如 EUV 就比 DUV 更“锐”,也就不需要刻这么多次。但像 LELE 这样的操作,是不是可简单认为是某种旧工艺方案的“叠加”呢?(衰。。。说得过去吧。。。
第二点是针对这个话题,现在数码圈讨论比较多的 die 的 3D 堆叠。其实当时某媒体(微博)原文说法是“双芯叠加”,“特定的芯片设计方法”。人家也没说是垂直堆叠嘛(虽然感觉“叠”好像直觉上势必得垂直方向了;不管了),
更没说双芯必须同等 die size 或同等微架构的比较。而且原文提到了“将叠加性能提升至比肩 7nm 芯片的程度,并且功耗发热也很不错”。性能、功耗、成本分开来谈,还是很好的说法。
14nm 芯片只要堆料充分,性能超越 7nm 芯片不成问题啊。比如 Rocket Lake 的 8 核 Intel 酷睿处理器(i9-11900K)性能,肯定比高通骁龙 865 性能强吧。前者是 Intel 14nm,后者是台积电 7nm。这俩就不是一个平台、一个定位,连 14nm 和 7nm 这俩名字对比的维度都不同(或者也可以比 7nm 的 Ryzen 5 5600U。。。)。
何况现在很多超算芯片也没用尖端工艺,难道性能还比不上 5nm 手机 SoC 了?这真的在于你堆了多少料,虽然达成同等性能,越早的工艺要付出的成本和功耗会显著增加。(当然工艺代差不能太大,否则会涉及到一些更现实的工程问题)
这种对比只在于性能堆料,纯比性能(Performance),根本就没意义;又没比效率、功耗(Power)和成本(Area)。原文只说“功耗发热也很不错”。。。“不错”多含糊。。。是不是。。。
至于 3D 垂直堆叠,不管是 Intel Fevoros,还是台积电 CoWoS,芯片 die 堆起来应该可以吧。不过应该不是 compute die 直接叠,而且我估计如果两层 14nm 要达成同代设计 7nm 芯片的性能,可能散热会成问题。所以还是不要垂直堆起来吧,就 die size 做大点,或者多 die 以 side-by-side 的方式封装就好了。。。
前一阵 AMD 推的 3D V-cache,前不久才写了篇文章,这篇文章也总结了台积电目前的 3DFabric 封装工艺:把CPU三级缓存堆到192MB,AMD与台积电的合谋以上算纯开玩笑。。。
毕竟原文的说法就相当模糊,我们模糊点理解,也没什么问题吧。。。况且海思是做 IC 设计的,就算要做垂直堆叠,也必须与 foundry 厂合作才行,不是自己在家就搞一搞,然后就强于世界的。总体上就是扯。。。
补充:声明一下,可能很多人没搞清楚我想表达的东西,我的这篇回答只是个用于课外阅读的科普;本回答提到了如果要说“叠加”的话,在制造和封装层面,哪里可以体现出“叠加”这个词。
我并不赞同“双芯叠加”就能让 14nm“比肩”7nm,主要是效率方面。但用 14nm 造性能高于 7nm 工艺的芯片真的不是什么难事,只是功耗发热不对等罢了。而且本回答的第一部分提到光刻的多重曝光,DUV “光刻刀”并不是 14nm 的专属,EUV 也不是 7nm 的专属。DUV 一样可以造 7nm/10nm。。。
扩展:
有关于旧工艺需要多大面积来实现新工艺的同等设计。这一点有兴趣的同学可以去看看 Intel 今年桌面酷睿处理器的 Cypress Cove 核心。
Cypress Cove 就是个 14nm 工艺的核心,不过其设计是来自于 10nm 的 Sunny Cove(阳光海湾)。或者说 Cypress Cove 实际上是 Sunny Cove 向前移植(backport)的核心。当代不同制造工艺的移植,所需做的工作其实会比较繁琐,包括因为更大的晶体管和间距,布线之类的都可能在性能上表现出差别。
其实那些关心旧工艺做个 2x 面积的 die,能不能达成新工艺 1x 的 die 的,可以去研究下 Cypress Cove 和 Sunny Cove 的面积差异。我没仔细去查过,但估计应该可以查到(虽然可能某些报告估计要收费)。。。。。。
貌似 Arm 平台也有类似的例子吧。。。。。。
网友评论:终于有人聊些干货了!
@HelltoHell:终于有干货了,原文的说法很鸡贼,很废话,主要也是以误导人为目的的。但人那种说法还真……没什么错误……
@jusdejude :这篇回答解释的清楚!看完总算对这事儿有点概念了。这么说来,华为微博原文没毛病啊,人转发就更没毛病了啊,那这些数码专家揪着人家画手咬文嚼字到底是他们自己也没搞懂呢,还是借题发挥输出怨气呢?
还一堆在那洗比喻贴切的,两杯50度水加一起不等于100度,这类比哪里贴切了?不应该是,两杯烫水加一起实现了另一杯烫水同样的暖身体的功效嘛?
@Lee昂昨天:终于有人聊些干货了,谢谢你
@负离子3 :因为7nm线路已经足够接近理论上限,本身就需要额外的设计来保障正常工作,使用更大面积的14nm线路来顶一样性能的逻辑门数量,其实也没有需要简单计算的四倍面积之多,两倍都差不多性能了。
二来你以为这是堆料,没堆,两边计算单元数量差不多。我们老说新CPU比旧CPU更强,是指在同样的指甲盖上填了更多的威廉希尔官方网站 。这边的事不一样,这边是用两个指甲盖放原来一个指甲盖的东西。
三来就是功耗问题,的确理论上会略大,但也就是略大而已,还是因为7nm这东西太接近理论上限了,额外的东西太多。现在的情况是工艺不成熟,设计不合理等原因才是大头,不是原理。
四是理论上没有亚空间突破的话,这个叠叠乐就是未来,你一层园林再精巧还是比不过高楼大厦。我们需要的是装入更多计算单元,为了这个我们还发展了更强的电力生产更强的散热工具,所有一切条件都是为了这个核心服务的。
编辑:jq
全部0条评论
快来发表一下你的评论吧 !