如何解决AI处理器的效率问题和算法执行的挑战

电子说

1.3w人已加入

描述

  人工智能处理器需要大量的电力,而较低的能效对应于整个配电网络(PDN)的损耗增加。如何解决保持效率和实现高质量算法执行的挑战?Vicor 的 PE 公司副总裁 Robert Gendron 在接受 EEWeb 采访时指出,由于加入了 AI、机器学习和深度学习,数据中心的机架功率已跃升了 200% 以上,达到 20 kW 范围. 这促使 Vicor 使用 48-V 解决方案重新评估其 PDN,虽然重新设计解决了高电流 PDN 问题,但也给电源转换带来了新的挑战。

AI处理器

  图 1:CPU/FPGA 峰值电流要求的进展(来源:Vicor)

  对 PDN 的需求飙升

  供电和电源效率已成为大规模计算系统中最大的问题(图 1)。随着处理复杂 AI 功能的 ASIC 和 GPU 的出现,该行业见证了处理器功耗的急剧增加。机架电源需求也与在大规模学习和推理应用程序部署中使用的 AI 能力成正比。在大多数情况下,供电现在是计算性能的限制因素,因为新 CPU 希望消耗不断增加的电流。最佳电力传输不仅需要电力分配,还需要效率、尺寸、成本和热性能。

  为了支持大量的数据计算,传统的 PDN 需要承受巨大的功率需求,从而影响热管理。通过延长 PDN 系统的电缆来降低电阻或增加工作电压以降低电流是两种选择。为了满足功率的增加,现代设计正在采用第二种选择来更有效地满足数据中心的严格要求。

  “目前,电力需求远远超过传统的电力输送网络,”Gendron 说。“切换到 48V 架构并采用更具创新性的供电方法是提供高性能电源以满足惊人的 AI/HPC 需求的唯一途径。”

  当 2015 年处理器能力开始大幅增加时,拥有最多云、服务器和 CPU 公司成员的开放计算项目 (OCP) 联盟继续改进其 12-V 机架设计。响应是从电缆切换到母线,并在机架内部署更多 12V 单相交流转换器,以最大限度地减少 PDN 距离和服务器刀片的阻力。主要的变化是,由于功率增加,单相交流电是从三相电源的各个相位派生到机架的。随后,在具有 500-A 至 1,000-A 处理器的数据中心中引入 AI,促使一些公司转向 48-V 配电。这将 12 kW 机架的高电流 PDN 问题减少到 250 A,但给整个系统的电源转换带来了新的挑战。由于为刀片供电的 PDN 正在切换到 48 V,因此需要对刀片进行电源转换更改。在任何情况下,从 12V 配电切换到 48V 都会将输入电流要求降低 4 倍,并将损耗降低 16 倍。

  采用 48V 架构

  48 V 用于可充电备用电池系统,为电信设备供电。这些系统中传统上使用的通用架构称为中间总线架构,它由一个隔离的未稳压总线转换器组成,用于将 48 V 转换为 12 V,然后将其馈送到一组多相降压稳压器以处理到 12 V 的转换和调节负载点 (PoL)。随着 AI 处理器和 CPU 电流的增加,由于稳压器和 PoL 之间的 PDN 电阻,PoL 的供电解决方案的密度成为 AI 应用中最关键的元素。PDN 损耗是计算 DC/DC 稳压器设计效率和性能的主要因素。

  为了减少损耗,Vicor 建议使用 48V 预调节模块 (PRM),然后使用固定比率(1/K 因子)变压级 (VTM)。这种专有架构允许优化每个阶段的性能。

  PRM 使用零电压开关拓扑,而 VTM 使用专有的高频正弦振幅转换器 (SAC) 拓扑。VTM 可以看作是一个 DC/DC 变压器,电压比为 1/K,电流比为 K。VTM 提供高功率密度,并且可以非常靠近处理器放置。

  VTM 采用 SAC 拓扑,因此与多相开关及其相关电感器相比,其辐射低且窄带。它还提供比多相设计更高的功率密度,单个 VTM 取代了六个多相开关级。VTM 占用空间小,完全符合支持四通道内存的高级处理器的布局限制,而不会占用内存子系统的布局区域。

AI处理器

图 2:横向供电(来源:Vicor)

  大电流传输是通过模块化电流倍增器 (MCM) 模块提供的,这些模块靠近处理器放置在主板上或处理器基板上。在基板上放置 MCM 可最大限度地减少 PDN 损耗并减少电源所需的处理器基板 BGA 引脚数量。LPD 旨在支持 OCP 加速器模块卡和定制 AI 加速器卡的供电需求和独特的外形。

AI处理器

图 3:垂直供电(来源:Vicor)

  垂直供电 (VPD) 进一步消除了配电损耗和 VR PCB 板面积消耗。VPD 在设计上与 Vicor LPD 解决方案相似,只是将旁路电容集成到电流倍增器或齿轮电流倍增器 (GCM) 模块中。

  根据处理器电流,工程师可以在横向供电 (LPD) 或 VPD 之间进行选择。在前一种情况下,电流倍增器位于 AI 处理器旁边,位于同一基板上或直接位于主板上几毫米之内,使 PDN 降低到约 50 µΩ。为了获得更高的性能,VPD 将电流倍增器直接移到处理器下方,还集成了高频接地电容器。这种类型的电流倍增器称为齿轮电流倍增器。VPD 将 PDN 电阻降低到 5–7 µΩ,让 AI 处理器可以自由地利用全部功率。

AI处理器

  图 4:该 AI 解决方案重点介绍了 Vicor 48V 直接负载 VR 解决方案,支持高达 650A 的连续电流和超过 1,000A 的峰值电流传输。(来源:Vicor)

  最大化 AI 处理器性能

  高级 AI 处理器加速模块的典型 Vicor VR 解决方案如图 4 所示。 Vicor VR 由三个动力总成模块、一个模块化电流驱动器 (MCD) 和两个 MCM 组成,提供 48-V输入至 0.8-V输出VR 具有高达 650 A 的连续电流和超过 1,000 A 的峰值电流传输能力。就像飞机的喷气燃料一样,这种供电水平可确保 AI 处理器以最佳时钟频率运行并最大限度地提高性能。

  Gendron 说:“如果我们的技术没有用于这些高级 AI 应用程序,多相 VR 设备的数量将超过威廉希尔官方网站 板尺寸,并且不会保持相同的外形尺寸。” “此外,噪声贡献很可能太高而无法保持信号完整性。”

  通过使用Vicor NBM2317,可保持与传统 12V 服务器机架配电的兼容性,并为 Vicor VR 提供 48V 电压。这种 12-V 至 48-V 转换器也可以在“相反”方向运行,从而实现 48-V 至 12-V 的转换。

  传统的电源架构跟不上当今耗电的 AI 处理器及其在云计算中的采用。Vicor 电源方法支持 48V 配电和支持高级 AI 处理需求的 VR。与 CPU 使用的传统多相设计不同,Vicor 解决方案专为解决在云服务器中快速迁移的新型处理器而开发。

  需要一种为 AI/HPC 提供动力的新方法。随着领先公司在电源方面不断突破,从云服务器机架分配 12 V 电源已不再可行。为当今的 ASIC 和 GPU 供电需要的不仅仅是通过更换部件来增加功率。最有效的解决方案从高压电源开始,结合创新的架构和拓扑,并使用高效的高密度电源模块。

文章来源:eeweb

编辑:ymf

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分