一、芯片散热概览:功耗升级、散热技术持续革新
电子设备发热的本质原因就是工作能量转化为热能的过程。散热是为解决高性能计算设备中的热管理问题而设计的,它们通过直接在芯片或处理器表面移除热量来优化设备性能并延长使用寿命。随着芯片功耗的提升,散热技术从一维热管的线式均温,到二维VC的平面均温,发展到三维的一体式均温,即3D VC技术路径,最后发展到液冷技术。
二、主要散热技术:从风冷到液冷,冷板到浸没式
散热技术包括风冷与液冷两类。风冷技术中,热管与VC的散热能力较低,3D VC散热上限扩至1000W,均需搭配风扇进行散热,技术简单、便宜,
适用于大多数设备。液冷技术具备更高散热效率,包括冷板式与浸没式两类,其中冷板式为间接冷却,初始投资中等,运维成本较低,相对成熟,英伟达GB200 NVL72采用冷板式液冷解决方案;浸没式为直接冷却,技术要求较高,运营维护成本较高,曙光数创研发“1拖2”双相浸没液冷结构。
三、性能+TCO多重驱动,散热市场规模持续向上
AI大模型训推对芯片算力提出更高要求,提升单芯片功耗。芯片温度影响性能,当芯片工作温度近70-80℃ 时,温度每升高2℃,芯片性能会降低约
10%,故单芯片功耗增长进一步提升散热需求。此外,英伟达B200功耗超1000W、接近风冷散热上限;“双碳”+东数西算等政策严格数据中心PUE要求,液冷平均PUE低于风冷;TCO方面,相比风冷,冷板液冷的初始投资成本接近风冷,并且后续运行成本更低。
1.1 芯片散热起源:电子设备发热的本质是工作能量转成热能
● 电子设备发热的本质原因就是工作能量转化为热能的过程。芯片作为电子设备的核心部件,其基本工作原理是将电信号转化为各 种功能信号,实现数据处理、存储和传输等功能。而芯片在完成这些功能的过程中,会产生大量热量,这是因为电子信号的传输 会伴随电阻、电容、电感等能量损耗,这些损耗会被转化为热能。
● 温度过高会影响电子设备工作性能,甚至导致电子设备损坏。据《电子芯片散热技术的研究现状及发展前景》,如对于稳定持续 工作的电子芯片,最高温度不能超过85 ℃,温度过高会导致芯片损坏。
● 散热技术需要持续升级,来控制电子设备的运行温度。芯片性能持续发展,这提升了芯片功耗,也对散热技术提出了更高的要求。此外,AI大模型的训练与推理需求,要求AI芯片的单卡算力提升,有望进一步打开先进散热技术的成长空间。
来源:CSDN,各公司官网,国海证券研究
1.2 散热技术原理:电子设备发热的本质是工作能量转成热能
资料来源:双鸿公告,飞荣达官网,国海证券研究所
资料来源:uanalyze,国海证券研究所
1.3 芯片散热革新:浸没式散热效果好,冷板式更为成熟
根据ODCC《冷板液冷服务器设计白皮书》,综合考量初始投资成本、可维护性、PUE 效果以及产业成熟度等 因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案。
资料来源:《冷板液冷服务器设计白皮书》,国海证券研究
2.1.1 热管:高效传热器件,适用大功率和空间小场景
来源:分析测试百科网,Tom's Hardware,兰洋科技,国海证券研究
2.1.2 VC:相比热管,具备更高的导热效率与灵活性
VC均温板,全称为Vapor Chamber,即真空腔均热板散热技术,是一种比热管更先进、更高效的导热元件, 尤其在处理高密度电子设备的热管理问题时表现出色。
相比热管,VC的导热效率与灵活度更强。铜的导热系数为401W/m.k,热管可以达到5000~8000 W/m‧k,而均 热板则可以达到20000~10000W/m‧k,甚至更高。热管是一维导热,受其形状显示。而均热板形状则不受限制, 可以根据芯片的布局,设计任意形状,甚至可以兼容处于不同高度的多个热源的散热。
2.1.2 3D VC:具备高效散热、均匀温度分布、减少热点优势
● 3D VC(三维两相均温技术):是利用热管与均温板蒸汽腔体贯通的散热技术。
● 3D VC具有“高效散热、均匀温度分布、减少热点”等解热优势,可满足大功率器件解热、高热流密度区域均温的瓶颈需求,也 可以保证获得更强的超频性能以及超频后的系统稳定性。
● 对比热管/均温板间导热,是把热量传递至二次组装的多根热管/均温板,存在接触热阻以及铜本身的热阻;而3D VC通过三维结 构连通下,内部液体相变、热扩散,直接、高效地将芯片热量传递至齿片远端散热。
2.1.3 风扇:与热管/3DVC/冷管等组合使用
2.1.4 机房空调:水冷空调相对风冷系统制冷效果好
来源:前瞻产业研究院,LEDC,制冷百科,国海证券研究所
2.1.4 机房空调:氟泵系统与间接蒸发系统较为稳定
● 氟泵系统:一种用于制冷和空调设备中的循环系统,它通过泵送氟利昂或其它制冷剂来传递热量。主要优点是可以精确控制制冷 剂的流量和压力,从而提高系统的效率和稳定性。
● 间接蒸发系统:是一种利用水蒸发吸热原理来降低空气温度的空调系统,它与直接蒸发冷却系统不同之处在于,冷却的空气与蒸 发的水不直接接触。这种设计可以提供比直接蒸发冷却更为清洁和干燥的空气,适用于对湿度和空气质量有特殊要求的环境。
来源:制冷百科,凯德利
2.2 液冷:冷板式与浸没式液冷为主
● 服务器液冷分为直接冷却和间接冷却,直接冷却以浸没式为主,间接冷却以冷板式为主。
● 冷板式液冷的冷却液不与服务器元器件直接接触,而是通过冷板进行换热,所以称之为间接液冷。依据冷却液在 冷板中是否发生相变,分为单相冷板式液冷及两相冷板式液冷。
● 浸没式液冷是将整个服务器或其组件直接浸入液体冷却剂中的冷却方式
来源:《冷板液冷标准化及技术优化白皮书》等
2.2.1 冷板式液冷:需改造服务器,渗透率逐渐提升
2.2.1 冷板式液冷:英伟达GB200 NVL72使用冷板式液冷结构
2.2.2 浸没式液冷:液体浸泡服务器整体,技术要求高
2.2.2 单相浸没:实现服务器全液冷,技术难度较高
● 单相浸没液冷机柜:是将液冷服务器内置于Tank内部,CDU与Tank之间由管道链接,下部管道输送低温冷却介质到tank内,液 冷介质吸收了液冷服务器的热量,温度上升后流回CDU,热量由CDU带走。此种结构可实现服务器的全液冷,无风扇的设计使 功率密度更高,相比风冷PUE更低。但技术难度较高,渗透率相对较低。
● 阿里云布局浸没式液冷系统:2016年,阿里云发布首套浸没式液冷系统,于2017年完成浸没式液冷集群构建;2018年,建成首 个互联网液冷数据中心;2020年,打造中国最大规模的单相浸没式液冷数据中心暨全国首座5A级绿色液冷数据中心。
来源:Intel官网,《绿色节能液冷数据中心白皮书》,国海证券研究
2.2.2 双相浸没:技术要求较高,可大幅提升系统功率密度
● 双相浸没液冷服务器结构(以曙光数创技术为例):
● 1)“1拖2”单元结构:由中间CDM液冷柜和左右两侧计算机柜构成。两侧机柜内服务器产生的热量由中间CDM液冷机柜带走。中间液冷柜内集成CDM、循环管路等系统。此种结构可以大幅度提升系统功率密度,降低数据中心建设难度。
● 2)刀片式相变浸没腔:独立可插拔设计,完全解耦节点与节点之间的热循环路径,使得每一个节点都可以进行独立的插拔,方 便用户对单独的节点进行硬件升级或维护。
● 3)芯片强化沸腾散热设计:由于服务器内主芯片功率较高,芯片表面需要进行强化沸腾处理,以增加其表面的气化核心,增强 相变换热效率。曙光数创的浸没相变液冷数据中心基础设施产品对芯片采用了强化沸腾封装的方式,换热区域采用高密翅片来强 化沸腾界面的沸腾换热,最高可实现100W/c㎡以上的散热密度。
来源:《绿色节能液冷数据中心白皮书
AI算力发展与政策PUE等驱动下,芯片级散热将从热管/VC转向更高效的3DVC与冷板,芯片级散热有望打开成长空间、迎量价齐升。
相关公司
1)芯片散热:曙光数创、飞荣达、中航光电、立讯精密、中石科技、思泉新材;
2)数据中心散热:英维克、高澜股份、申菱环境、佳力图、朗威股份、依米康、同飞股份、川润股份、润泽科技、科华数据、网宿科技;
3)服务器整机:浪潮信息、中科曙光、工业富联、华勤技术、紫光股份、中兴通讯、软通动力、神州数码、烽火通信、中国长城等。
来源:国海证券研究所
全部0条评论
快来发表一下你的评论吧 !