今日和文档君一起学习技术名词:
全调度以太网技术(Global Scheduling Ethernet,GSE)——基于报文容器PKTC转发和负载均衡,并实现全局调度。
什么是全调度以太网GSE?
GSE(Global Scheduling Ethernet),即全调度以太网技术。GSE是由中国移动联合产业合作伙伴共同提出的一种以太网技术架构,是在现有以太网的基础上进行了优化和创新,以满足智算中心高性能网络技术,旨在突破传统以太网的技术瓶颈,打造无阻塞、高带宽、低时延的新型智算中心网络。
为什么需要GSE?
在AI训练中,我们常用RDMA协议来高速传输数据。但RDMA对丢包非常敏感,哪怕只丢了一点点数据包,网络的有效传输速度就会大幅下降。
而AI大模型训练需要多个计算设备一起工作,它们之间需要频繁通信和同步,这对网络的要求就特别高。现在AI模型越来越大,智算中心的网络性能就得更强才行,需要无阻塞、“0”丢包、低延迟。
传统的以太网在大规模、高速度的数据传输时,容易出现网络拥塞等问题。这就像是一条高速公路,车一多就容易堵。
智算中心的网络中数据流虽然不多,但每个流的数据量都很大,传统的负载均衡方式就容易出问题,导致数据包丢失,动态时延增大等问题,从而影响AI训练的效率。
GSE技术就像是给去往某个目的地的多条高速公路装上了智能导航系统,它能主动控制车流选择最优路径,避免堵车,更高效地转发数据包。这样一来,丢包就少了,网络延迟也低了,整体传输速度就更高了,AI训练效率也就提升了。
GSE技术特点
1. 从“流”分发转变为“报文”分发。传统ECMP 负载均衡会导致链路负载不均以及哈希极化,可能引起拥塞和丢包。
GSE设备会将数据包进行逻辑分组,组装成长度较长的“定长”容器,并基于报文容器转发和动态负载均衡,实现单条流在多路径上均匀地负载分担,提升有效带宽。
如果把报文当作货物,报文容器就好像载货能力一样的货车,每辆货车拉着同样重量的货物(数量可以不一样),大量货车被均匀地调度到去往同个目的地的多条高速路上,可以最大程度利用道路资源。
2. 从被动拥塞控制到主动流控,引入“授权请求”和“全局调度机制”,通过构建基于全局动态调度队列(DGSQ)的拥塞控制机制,本设备发送流量速率由最终的设备出口、途经的设备统一进行全网端到端授权,确保了流量负载不超过网络的承载能力,有效避免了网络拥塞而丢包。
这就好像货车在出发前先询问了目的地的库房是否具备接收能力,根据目的地的收货能力以及沿途路况来决定发出多少货物,确保货物能准确送达并接收。
由于AI大模型训练时任意一轮计算的结束均依赖最后一个结果的返回,降低网络长尾时延可有效提升训练完成时间。
交换网络整体转发时延和转发路径上中间节点的拥塞情况正相关,消除中间节点的拥塞就可消除长尾时延。GSE技术实现了精细化调度和和高负载均衡,可有效降低长尾时延,提升训练效率。
GSE支持GSE-N2N和GSE-E2E两大技术场景,GSE-N2N通过网络设备实现全部GSE功能,支持计算与网络设备的解耦;GSE-E2E将部分GSE能力延伸至服务器网卡,借助端网协同实现高性能集群互联。QGSE vs RoCEv2 vs InfiniBand
GSE | RoCEv2 | InfiniBand | |
网络设备 | GSE交换机 | 以太交换机 | IB交换机 |
性能 | 组网性能相较传统RoCEv2可提升40%已上 | 经过调优可接近IB | 优 |
兼容性 | 优,基于以太网改造,有开放标准 | 优,增强以太网 | 封闭,不兼容以太网 |
产业生态 | 中国移动携手国内智算生态企业共同发布产品及标准。 | 多种芯片方案,大量网络设备厂家 | Nvidia为主等少量海外厂商 |
易用性 | 无需复杂的网络参数配置 | 需要调节各种网络参数,较复杂,自动化部署正在完善中 | 集中式管理机制,由子网管理器负责整个网络转发表的计算与分发等工作 |
成熟度 | 新技术,持续完善中 | 成熟,还在持续演进完善 | 成熟 |
注:RoCEv2(RDMA over Converged Ethernet,融合以太网承载RDMA)
GSE有哪些应用场景?
GSE主要面向无损、高带宽、低时延等高性能网络需求业务场景,如AI大模型训练的智算中心网络。
GSE业界应用进展
在2023年9月的中国网络大会上,中国移动研究院携手合作伙伴发布业界首款“全调度以太网(GSE)”样机。
在2023年11月21日的开放数据中心委员会(ODCC)冬季全会会议上,正式成立全调度以太网(GSE)技术特设组并召开第一次工作组会议。
在2024年9月27日的中国算力大会上,中国移动携手国内智算生态企业共同发布了全调度以太网(GSE)全套技术标准及首套商用产品。
2024.11,中国移动联合云豹智能共同研发首颗GSE DPU芯片--“智算琢光”。
2024.12,中国移动联合中兴共同研发首颗可完整支持GSE功能的大容量高性能交换芯片
全部0条评论
快来发表一下你的评论吧 !