0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU服务器AI网络架构设计

架构师技术联盟 来源:架构师技术联盟 2024-11-05 16:20 次阅读

众所周知,在大型模型训练中,通常采用每台服务器配备多个GPU的集群架构。在上一篇文章《高性能GPU服务器AI网络架构(上篇)》中,我们对GPU网络中的核心术语与概念进行了详尽介绍。本文将进一步深入探讨常见的GPU系统架构。

8台配备NVIDIA A100 GPU的节点/8台配备NVIDIA A800 GPU的节点

04a241da-90b6-11ef-a511-92fbcf53809c.png

如上图所示的A100 GPU拓扑结构中,8块A100 GPU所组成的拓扑包含以下组件:

两颗CPU芯片(及其两侧相关的内存,NUMA架构):中央处理器负责执行通用计算任务。

两块存储网络适配卡(用于访问分布式存储,具备带内管理等功能):这些网卡用于访问分布式存储资源。

四颗PCIe Gen4交换芯片:PCIe Gen4是PCIe接口的第四代,提供了更高的数据传输速率。

六颗NVSwitch芯片:NVSwitch使得GPU与GPU之间能够以极高的速度直接通信,这对于大规模深度学习节点和并行计算任务的有效运行至关重要。

八块GPU:A100 GPU作为主要处理单元,负责执行并行计算,尤其适合人工智能深度学习工作负载。

八块GPU专用网络适配卡:每块GPU配备一块专用的网络适配卡,旨在优化GPU之间的通信,并提升并行处理任务的整体性能。

接下来的部分我们将对这些组件进行详细解读。下一张图片将提供更详尽的拓扑结构信息供参考。

04c8d052-90b6-11ef-a511-92fbcf53809c.jpg

存储网络卡

在GPU架构中,存储网络卡的定位主要涉及其通过PCIe总线与中央处理器(CPU)的连接,以及负责促进与分布式存储系统的通信。以下是存储网络卡在GPU架构中的主要作用:

读写分布式存储数据:存储网络卡的主要功能之一是高效地从分布式存储系统读取和写入数据。这对于深度学习模型训练过程至关重要,在此过程中频繁访问分布在各处的训练数据以及将训练结果写入检查点文件极为重要。

节点管理任务:存储网络卡的功能不仅限于数据传输,还包括节点管理任务。这包括但不限于通过SSH(安全外壳协议)进行远程登录、监控系统性能以及收集相关数据等任务。这些任务有助于对GPU集群的运行状态进行监控和维护。

虽然官方推荐使用BF3 DPU,但在实践中,只要满足带宽需求,可以选用其他替代解决方案。例如,为了成本效益考虑,可以考虑使用RoCE;而为了最大限度提升性能,则优先选择InfiniBand。

NVSwitch 网络结构

在完全互联网络拓扑中,每个节点都直接与所有其他节点相连。通常情况下,8块GPU通过六个NVSwitch芯片以全互联配置相连接,这一整体也被称为NVSwitch架构。

在全互联结构中,每条线路的带宽取决于单个NVLink通道的带宽,表示为n * bw-per-nvlink-lane。对于采用NVLink3技术、每条通道带宽为50GB/s的A100 GPU,在全互联结构中,每条线路的总带宽为12 * 50GB/s = 600GB/s。需要注意的是,此带宽是双向的,既支持数据发送也支持接收,因此单向带宽为300GB/s。

相比之下,A800 GPU将NVLink通道的数量从12减少到了8。因此,在全互联结构中,每条线路的总带宽变为8 * 50GB/s = 400GB/s,单向带宽为200GB/s。

以下是一个由8*A800组成的设备的nvidia-smi拓扑结构图示。

06122f8a-90b6-11ef-a511-92fbcf53809c.png

GPU与GPU之间的连接(左上区域):所有连接均标记为NV8,表示有8条NVLink连接。

网络接口卡(NIC)连接:在同一CPU芯片内:标记为NODE,表示无需跨越NUMA结构,但需要穿越PCIe交换芯片。在不同CPU芯片之间:标记为SYS,表示必须跨越NUMA结构。

GPU至NIC的连接:在同一CPU芯片内且处于同一PCIe交换芯片下:标识为NODE,表示仅需穿越PCIe交换芯片。

在同一CPU芯片内但不在同一PCIe交换芯片下:指定为NNODE,表示需要同时穿越PCIe交换芯片和PCIe主机桥接芯片。

在不同CPU芯片之间:标记为SYS,表示需要跨越NUMA结构、PCIe交换芯片,并覆盖最长距离。

GPU节点互联架构

以下图表展示了GPU节点间的互联架构:

0649952e-90b6-11ef-a511-92fbcf53809c.png

计算网络

计算网络主要用于连接GPU节点,支持并行计算任务之间的协同工作。这包括在多块GPU之间传输数据、共享计算结果以及协调大规模并行计算任务的执行。

存储网络

存储网络用于连接GPU节点和存储系统,支持大规模数据的读写操作。这包括将数据从存储系统加载到GPU内存中,以及将计算结果写回存储系统。

为了满足AI应用对高性能的需求,在计算网络和存储网络上,RDMA(远程直接内存访问)技术至关重要。在两种RDMA技术——RoCEv2和InfiniBand之间进行选择时,需要权衡成本效益与卓越性能,每种选项都针对特定应用场景和预算考虑进行了优化。

公共云服务提供商通常在其配置中采用RoCEv2网络,例如CX配置,其中包含8个GPU实例,每个实例配备8 * 100Gbps。与其他选项相比,只要能满足性能要求,RoCEv2相对较为经济实惠。

数据链路连接中的带宽瓶颈

06741e02-90b6-11ef-a511-92fbcf53809c.png

该图表突出了关键连接的带宽规格

同一主机内GPU之间的通信:通过NVLink技术,双向带宽达到600GB/s,单向带宽达到300GB/s。

同一主机内GPU与其各自网络接口卡(NIC)之间的通信:采用PCIe Gen4交换芯片,双向带宽为64GB/s,单向带宽为32GB/s。

不同主机间GPU之间的通信:数据传输依赖于NIC,带宽取决于所使用的具体NIC。当前在中国,对于A100/A800型号常用的NIC提供主流的单向带宽为100Gbps(12.5GB/s)。因此,相较于同一主机内的通信,不同主机间的GPU通信性能显著下降。

200Gbps(25GB/s)接近PCIe Gen4的单向带宽。400Gbps(50GB/s)超越了PCIe Gen4的单向带宽。

因此,在此类配置中使用400Gbps的网卡并不能带来显著优势,因为要充分利用400Gbps带宽需要PCIe Gen5级别的性能支持。

8x NVIDIA H100/8x NVIDIA H800 主机

H100主机内部的硬件拓扑结构

H100主机的整体硬件架构与A100八卡系统的架构非常相似,但也存在一些差异,主要体现在NVSwitch芯片的数量和带宽升级上。

在每个H100主机内部,配置了4颗芯片,比A100配置减少了两颗。

H100芯片采用4纳米工艺制造,底部一行配备了18条Gen4 NVLink连接,从而提供了900GB/s的双向总带宽。

H100 GPU 芯片

06ad8c3c-90b6-11ef-a511-92fbcf53809c.png

该芯片采用尖端的4纳米工艺制造,表明其采用了先进的制造技术。

芯片底部一排包含18个Gen4 NVLink连接,提供双向总带宽为18条通道 * 每通道25GB/s = 900GB/s。

芯片中央蓝色区域代表L2高速缓存,用于存储临时数据的高速缓冲区。

芯片左右两侧则集成了HBM(高带宽内存)芯片,这些芯片作为图形内存使用,存储图形处理所需的数据。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4735

    浏览量

    128919
  • 服务器
    +关注

    关注

    12

    文章

    9142

    浏览量

    85384
  • AI
    AI
    +关注

    关注

    87

    文章

    30830

    浏览量

    268984
  • 模型
    +关注

    关注

    1

    文章

    3238

    浏览量

    48824

原文标题:GPU服务器AI网络架构设计(下)

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【产品活动】阿里云GPU服务器年付5折!阿里云异构计算助推行业发展!

    上云。活动规则:地域:国内所有地域规则:实例部分5折,不受台数限制活动购买年限:1年 / 2年 (实例5折,其他磁盘+网络折扣同目前线上)阿里云GPU服务器全力支持AI生态发展,进一
    发表于 12-26 11:22

    gpu服务器是干什么的_gpu服务器和普通服务器有什么区别

    从字面上里面,GPU服务器服务器当中的一种,GPU服务器跟其他服务器有什么区别ne?
    发表于 01-06 09:58 4.3w次阅读

    GPU服务器到底是什么?GPU服务器与普通服务器到底有什么区别

    服务器具备很强的现实意义,我们每天都在无形中跟服务器打交道。针对用途不同,服务器可分为诸多类型。为增加大家对服务器的了解程度,本文将对GPU
    的头像 发表于 11-14 10:04 7632次阅读

    GPU服务器是什么

    其实现在很多人都听说或者接触过服务器,众所周知,服务器网络中的重要设备,要接受少至几十人、多至成千上万人的访问,因此对服务器具有大数据量的快速吞吐、超强的稳定性、长时间运行等严格要求
    的头像 发表于 02-25 09:31 5688次阅读

    AI服务器与传统服务器的区别是什么?

    AI 服务器确实是整个服务器市场的一部分,但它们是专门为基于云的 AI 模型训练或推理而设计的。在规格方面,广义的AI
    发表于 06-21 12:40 1902次阅读

    GPU服务器是什么?

    从字面上来看GPU服务器服务器当中的一种,简单的介绍,GPU服务器就是基于CGP的应用在视频编解码,深度学习,科学计算等多场景稳定快速,稳
    的头像 发表于 08-01 18:03 1058次阅读

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别

     相比于传统的CPU服务器GPU服务器支持同时计算大量相似的计算操作,可以实现更强的并行计算性能。GPU服务器通常配备多个高性能的
    的头像 发表于 12-02 17:20 1923次阅读

    物理服务器ai发展的应用

    物理服务器AI发展中扮演着重要的角色。传统的以CPU为计算部件的服务器架构已难以满足人工智能的新需求,因此,"CPU+ GPU/FPGA/
    的头像 发表于 12-22 09:19 444次阅读

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别 GPU
    的头像 发表于 01-30 15:31 862次阅读

    ai服务器是什么架构类型

    架构AI服务器通常具有较高的通用性,可以运行各种人工智能算法。但是,CPU架构AI服务器在处
    的头像 发表于 07-02 09:51 1063次阅读

    gpu服务器与cpu服务器的区别对比,终于知道怎么选了!

    gpu服务器与cpu服务器的区别主要体现在架构设计、性能特点、能耗效率、应用场景、市场定位等方面,在以上几个方面均存在显著差异。CPU服务器
    的头像 发表于 08-01 11:41 490次阅读

    AI服务器:开启智能计算新时代

    一、AI服务器的定义与特点 AI服务器的定义 AI服务器是一种基于云计算技术,专为处理人工
    的头像 发表于 08-09 16:08 870次阅读

    GPU服务器架构解析及应用优势

    GPU服务器作为一种高性能计算资源,近年来在人工智能、大数据分析、图形渲染等领域得到了广泛应用。它结合了云计算的灵活性与GPU的强大计算能力,为企业和个人用户提供了一种高效、便捷的计算解决方案。下面我们将从
    的头像 发表于 08-14 09:43 387次阅读

    什么是AI服务器AI服务器的优势是什么?

    AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片
    的头像 发表于 09-21 11:43 840次阅读

    GPU服务器租用多少钱

    GPU服务器的租用价格受多种因素影响,包括服务提供商、GPU型号和性能、实例规格、计费模式、促销活动以及地域差异等。下面,AI部落小编为您
    的头像 发表于 12-09 10:50 124次阅读