机器学习领域中的连接系统应用分析

人工智能

636人已加入

描述

我们的大脑由860亿个神经元组成,神经元是一种非常简单的细胞。而令人吃惊的是,神经元之间有1014种连接。也就是说,不同神经元之间的连接数量将增长5到6个数量级。每一个神经元都将从多个“in”神经元中获取所有具有一定权重函数的输入,将这些输入相加,通过树突输出信号,并传递给其他神经元。

神经元

作为一家互连公司,我们正尝试准确地实现突触的功能,构建数亿甚至数十亿个神经元和突触并连接所有这些神经元和突触,从而复制人类大脑的运行机制。我们正在各种设备和系统之间连接数据或电源。

AI型架构将完全依赖于这些突触。智能的核心是互连,而不是神经元。换句话说,智能依赖于网络,而不是各个计算单元!与引脚数量低于处理核心数量类似,这些突触将远远超过神经元的数量(图2)。

神经元

让我们讨论另一个真实的工作案例。最近,我参加了全球首屈一指的光通信和网络大会 — 美国光纤通讯展览会及研讨会(OFC)。在OFC上,Meta宣布正在研究一种共封装铜和共封装光学解决方案。这是一个120毫米 x 120毫米的巨大基板。可以在其中16个位置选择填充光学模块(通过安费诺的压缩插座连接)或使用安费诺的DensiLink-OSFP OverPass解决方案。在这两种方式中,我们都实现了每秒51.2 TB的IO传输速率!在图3中,位于中间的芯片是Broadcom尚未投产的高阶芯片。

神经元

图3

Amphenol DensiLink used in Meta's project

(Courtesy:Albert Chen)

该芯片提供令人难以置信的512个通道,每个通道支持112 Gb/s传输速率。在十年前,如果要实现51.2 Tb的数据交换,则需要使用10英尺高、包含12个插槽的模块化系统。我们实现了引人瞩目的技术扩展能力,而这正是我们应用于AI/ML领域的方式。

另一个例子是TPU(张量处理单元)Pod(图4)。一个机架包含十六个子架。机架的每个子架都有20根水平布置的OSFP电缆。八个机架组成一个Pod,这是Google Ml系统的最小结构。

这共有2560个OSFP端口和1280根OSFP电缆!而这还只是一个“小型”系统! 

神经元

该系统将构成一个全网状环形结构。当系统正面的互连从左向右或水平传输时,则系统背面的互连则是从上向下传输,从而构成一个完整的网格(图4)。

每个机架都将连接至其最近的机架,然后再与下一个相邻的机架形成级联式互连,依此类推。同样,每一个子架也采用类似的方式连接至另一个子架。这种无交换设计可以大幅减少延迟,因为无需其他中间组件来引导流量,每个节点都负责自主控制方向。

神经元

这就需要大量的电缆!完成这些电缆的物理安装并实现准确可靠的连接无疑是一项巨大的挑战。在这些高速IO电缆的初步发展阶段,设计人员只要安装10到20根电缆,完全没想到现在要一次性安装1280根电缆。

这迫使我们不得不重新考虑用例。我们希望逐步取代用人工流程来安装这些电缆,因为在数据中心内,这些Pod覆盖的面积差不多要达到4.6万平方米。维护和安装所有这些电缆几乎是不可能的,因此机器人应运而生。否则,我们需要考虑实现数据中心自动化。电缆的数量将持续增长,其薄度、弯曲半径和传输速度也将不断进步。因此,我们正在通过技术投资来打造更纤细、更灵活的电缆,同时满足客户对更高带宽的需求。

 

请分享一下安费诺在PECFF领域的布局,也就是Gen Z附加卡封装形式。安费诺是否针对PECFF提供了任何产品?因为我听说这项技术可能应用于加速卡。

是的,我们正在研发相关产品。这项工作延续了我们之前在SFF-TA-1002标准上取得的成果。新的接口仍然采用相同的命名方式,但支持不同的应用场景。我们已经向PCI-SIG委员会提交了方案。因此,SFF-TA-1002将建立一个新的标准,通过一个通用接口来支持固态驱动器、内存、AI/ML、计算和IO通信。我们推出的就是这样一个通用接口。刚开始只限于内部应用,但现在研发人员已经开始设法扩展其应用场景。

 

想再重点了解一下SFF-TA-1002。针对Mini Cool Edge连接器,是否会有更大的应用前景?

当然。实际上,我认为我们是业界第一家推出Mini Cool Edge的供应商。

 

我们希望了解Nvidia的NVLink专有技术及其相关硬件平台DGX-2。它被称为比PCIe速度更快且更具可扩展性的替代方案。鉴于此,您是否认为NVLink能够实现颠覆性增长并超过PCIe?还是会与PCIe共存?

我认为它将与PCIe及其缓存一致性变体CXL共存。如果关注这些年的技术发展轨迹,每当有新技术出现时,它就像一个受控的混沌模型,每个人都知道应当如何采用这项新技术。因此,每个人都会有自己的标准和自己的接口。针对AI/ML领域,我们还处于原始阶段,对吧?我们仍在探索支持这些技术的理想方式,以及应当如何为其建立标准。所以这项工作仍在持续推进中。请记住,AI/ML的实际应用还只有八年,而我们在不到五年的时间里就从零发展到大规模部署,真的很令人不可思议!

 

感谢您分享这些独到见解。您能否介绍一下安费诺在NVLink技术领域推出的一些最重要的连接器?

好的。我们从很早就与NVLink建立了合作关系。安费诺最开始创建了符合SFF标准的SlimSAS互连系统。然后,NVLink使用了Meg-Array,这是我们推出的一款高性能夹层连接器。再然后使用了ExaMAX背板连接器系统。他们还评估了ExaMAX电缆,可与QSFP搭配使用,现已发展至OSFP。下一代将使用DensiLink转OSFP。而现在,他们正在评估Paladin HD。因此,安费诺的几乎每一款高速接口都已经或正在接受英伟达的评估。这真是太神奇了。

 

DensiLink而言,它最具吸引力、最突出的特点是什么?

从图8中可以看到,这仅仅是因为可以在芯片上实现足够的带宽。每平方英寸的密度和带宽是AI技术的一个重要优先事项。

 

AI的未来发展对安费诺有哪些影响?

AI架构的出现还只有十年,我们将在未来几十年中见证AI应用的不断成熟和发展。同样,网络、服务器和其他数据电信应用也将进入高速发展阶段。这些新兴技术用了二三十年才真正投入大规模应用,并最终成为了业界标准。AI的挑战在于,其发展完全依赖于越来越庞大的互连系统。在未来的技术发展趋势中,我们显然还需要克服许多互连挑战。但互连行业的未来是光明的。 

编辑:黄飞

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分