RDMA技术简介

描述

13.3 RDMA 协议

RDMA 指的是一种远程直接存储器访问技术。具体到协议层面,它主要包含 InfiniBand、RoCE 和 iWARP 三种协议。三种协议都符合 RDMA 标准,共享相同的上层用户接口(Verbs),只是在不同层次上有一些差别。图 13-6 对比了这几个协议在不同层次上的差异。

RDMA

RDMA 技术简介

13.3.1 InfiniBand

InfiniBand(直译为“无限带宽”,缩写为 IB)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的时延,在 2000 年由 IBTA(InfiniBand TradeAssociation)提出。IBTA 是 RDMA 技术最主要的倡导者和先行者,其规定了一整套完整的链路层到传输层(和传统 OSI 七层模型的传输层不同)规范,如图 13-7 所示。但是 InfiniBand无法兼容现有以太网,如果企业想部署的话,除了需要专用网卡之外,还要重新购买配套的网络交换设备

RDMA

13.3.2 RoCE

基于融合以太网的 RDMA(RDMA over Converged Ethernet,RoCE)也是由 IBTA 定义的。InfiniBand 架构规范定义了如何通过 InfiniBand 网络执行 RDMA,而 RoCE 则定义了如何通过以太网网络执行 RDMA。RoCE 有 RoCEv1 和 RoCEv2 两个版本。如图 13-6 所示,RoCE v1 的网络层使用了InfiniBand 规范,链路层使用以太网协议,因此允许同一个以太网广播域中的两台主机进行通信。RoCEv2 使用了“UDP+IP”作为网络层,是一个“网络层+链路层”协议,因此 RoCE v2网络中的数据包可以被路由。RoCE 被认为是 InfiniBand 的“低成本解决方案”,将 InfiniBand传输层的报文封装成以太网数据包进行收发(也就是说 RoCE 仍然使用 InfiniBand 传输层,见图 13-6)。由于 RoCE 可以使用以太网交换设备,因此在企业中的应用比较多,但是其在相同场景下相比 InfiniBand 会有一些性能方面的损失。

RoCE 与 InfiniBand 有如下几个技术差异。

• 链路级流量控制。InfiniBand 使用基于信用(credit-based)的算法来保证无损的网络通信。RoCE 的实现需要无损以太网网络,以达到类似 InfiniBand 的性能。无损以太网通常通过以太网流量控制或优先级流量控制(PFC)进行配置,配置一个无损以太网网络比配置一个 InfiniBand 网络复杂。

• 阻塞控制。InfiniBand 定义了基于 FECN/BECN 标记的阻塞控制协议。RoCEv2 定义了一种使用 ECN 进行标记、CNP 帧进行反馈的阻塞控制协议,网络中的交换机中需要支持 ECN 功能。

• InfiniBand 交换机的时延通常低于以太网交换机。在以太网链路层上使用 RDMA 应用程序时,应注意以下几点。

• 网络中不需要子网管理器。对于那些需要与子网管理器通信的操作,在 RoCE 网络中会以不同的方式进行管理。

• 由于 LID 是 InfiniBand 协议栈链路层的属性,其在 RoCE 网络中无效,因此在查询RoCE 网卡的端口时,LID 显示为零。

• 因为子网管理器不存在,所以无法查询路径。因此,在建立连接之前,必须将相关的值填充进路径记录结构。建议使用 RDMA CM 建立连接,因为它可以负责填充路径记录结构。

• RoCE 设备的流量不显示在相关以太网设备的计数器(比如 ifconfig 命令的输出中可以看到的收发包计数)中,因为它的数据收发不通过以太网设备驱动程序。RoCE 设备 和 InfiniBand 设备的流量统计都在 /sys/class/infiniband//ports//counters/目录下。作者使用的 Mellanox ConnectX-5 100G 网卡就是一种 RoCE 设备。在安装了该设备的机器上,执行 ibv_devinfo 命令可以获取如下比较详细的设备信息,如下所示。

RDMA

从其中的 transport: InfiniBand 可以看出其传输层为 InfiniBand 传输层,link_layer: Ethernet表示它支持以太网链路层,再结合图 13-6,就可以确认这是一种符合 IBTA 定义的 RoCE 类型的 RDMA 设备。另外,port_lid: 0 表示其 LID 为 0(LID 对 RoCE 无意义)。执行 cma_roce_mode 命令可以获知此网卡当前支持的 RoCE 版本为 RoCEv2。

RDMA

审核编辑:汤梓红

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分