分享自:

可扩展的RDMA传输与高效连接共享

期刊:Infocom 2023

学术研究报告:SRM——一种高效共享连接的RDMA可扩展传输模式

第一作者及机构
本研究的核心作者团队包括:Jian Tang(南京大学新型软件技术国家重点实验室)、Xiaoliang Wang(南京大学)和Huichen Dai(华为技术有限公司,通讯作者)。该研究发表于IEEE INFOCOM 2023,是网络通信领域的顶级会议之一。


学术背景

研究领域与动机
远程直接内存访问(Remote Direct Memory Access, RDMA)因其低延迟、高吞吐和CPU旁路(CPU-bypass)特性,被广泛应用于数据中心分布式系统。然而,随着RDMA网络规模扩大,传统传输模式(如可靠连接RC、扩展可靠连接XRC、动态连接传输DCT)面临严重资源瓶颈:
1. RNIC(RDMA网络接口卡)资源耗尽:每个进程级全连接需维护大量队列对(Queue Pair, QP),导致RNIC的元数据缓存(QP Context, QPC)频繁换入换出(Cache Thrashing),性能显著下降。
2. 网络拥塞加剧:大规模连接使分布式拥塞控制算法难以收敛,引发队列振荡和吞吐下降。

研究目标
团队提出SRM(Scalable and Reliable Messaging),一种新型RDMA传输模式,旨在通过节点级连接共享解决上述问题,同时保留RDMA的性能优势。


研究流程与方法

1. 设计核心挑战与解决方案

  • 挑战1:跨进程共享连接的性能保障
    • 方案:SRM在内核层管理共享连接(SRM Channel, SRMC),通过以下技术避免系统调用(syscall)开销:
    • 用户态与内核共享工作内存。
    • 采用无锁调度器(Lock-free Scheduler)减少竞争。
  • 挑战2:头部阻塞(Head-of-Line Blocking, HoL)
    • 方案
    • 为大于8KB的消息分配独立通道。
    • 限制单通道队列深度(默认256KB)并实现细粒度调度(8KB/请求)。
  • 挑战3:请求失败的容错机制
    • 方案:基于XRC实现主备快速切换(Active-Standby Failover),通过状态机(Init/Normal/Restoring/Invalid)管理连接恢复。

2. 实现细节

  • SRM队列结构
    • 每个SRM QP包含发送队列(Send Queue)、完成队列(Completion Queue)、接收队列(Receive Queue)和共享接收队列(SRQ)。
    • 客户端:内核调度器主动轮询用户态请求,按目标节点哈希分组,避免锁竞争。
    • 服务端:利用XRC硬件特性直接分发消息至目标进程,无需CPU介入。
  • 实验平台
    • 测试床:6台服务器(72核CPU+ConnectX-5 RNIC),启用DCQCN拥塞控制。
    • 仿真环境:288服务器Fat-Tree拓扑,模拟Facebook真实负载(短流占比80%)。

主要结果

1. 性能对比(SRM vs. RC/XRC/DCT)

  • 延迟与吞吐
    • 一对一通信:SRM与RC/XRC性能相当,DCT因连接串行化延迟增加10倍。
    • 一对多通信:SRM吞吐比DCT高10倍(DCT需频繁重建连接)。
  • 大规模连接场景
    • RNIC资源占用:SRM内存开销仅为RC的1/24。
    • 网络拥塞:在420进程全连接测试中,SRM的99%尾延迟(Tail Latency)比RC低20倍(200μs vs. 5ms)。

2. 仿真验证

  • 流量模式
    • 短流主导负载:SRM平均流完成时间(Flow Completion Time, FCT)比DCT快3.37倍。
    • 长流主导负载:SRM 99%尾FCT比XRC优化4.4倍,因独立通道隔离大流量干扰。

结论与价值

科学价值
1. 理论创新:首次系统分析RDMA可扩展性的双重瓶颈(RNIC缓存与网络拥塞),并提出节点级共享连接的通用解决方案。
2. 技术突破:SRM通过无锁调度、HoL规避和快速恢复机制,实现性能与资源效率的平衡。

应用价值
- 超大规模数据中心:SRM可支持万节点级RDMA部署,适用于分布式存储(如HDFS)、机器学习(如Parameter Server)等场景。
- 异构环境兼容性:基于标准Verbs接口,无需修改现有应用。


研究亮点

  1. 跨进程高效共享:SRM首次实现内核层RDMA连接共享,吞吐达20M请求/秒,较传统方案提升4-20倍。
  2. 无锁与CPU旁路设计:通过物理地址直接访问用户内存,消除锁竞争与系统调用开销。
  3. 硬件-软件协同优化:结合XRC硬件特性与软件调度策略,兼顾低延迟与高扩展性。

其他贡献

  • 开源实现:基于Mellanox OFED驱动修改,代码可复用于工业界。
  • 行业影响:华为等企业已参与技术讨论,未来可能集成至云原生基础设施。

(全文约2200字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com