分享自:

基于全局一致优先级的RDMA网络微秒级消息调度机制

期刊:IEEEDOI:979-8-3315-4940-4/25/$31.00

“低延迟微秒级消息调度:基于全局优先级一致性的RDMA网络多路径传输机制”学术研究报告

【作者与机构】
本文由南京航空航天大学计算机科学与技术学院的Qiuyu Yu、Tong Zhang(通讯作者)、Kun Zhu、Yufan Tang、Xiaoxiang Hua与清华大学计算机科学与技术系的Fengyuan Ren合作完成,预计发表于2025年IEEE/ACM International Symposium on Quality of Service (IWQoS)会议。

【学术背景】
随着数据中心计算速度低延迟微秒级消息调度的创新方案:RDMA网络中基于全局一致优先级的GPMP机制

作者及机构
本研究的核心作者团队由南京航空航天大学计算机科学与技术学院的Qiuyu Yu、Tong Zhang(通讯作者)、Kun Zhu、Yufan Tang、Xiaoxiang Hua,以及清华大学计算机科学与技术系的Fengyuan Ren共同组成。该成果发表于2025年IEEE/ACM International Symposium on Quality of Service (IWQoS)会议,论文标题为《Low-Latency Microsecond Message Scheduling with Global Consistent Priorities in RDMA Networks》。

学术背景与研究动机
随着数据中心计算速度与网络带宽的显著提升,微秒级尾延迟(tail latency)成为在线服务(如搜索引擎、内存键值存储、电子商务等)的关键性能指标。然而,现有流量调度机制难以协调终端与网络内部资源,导致微秒级消息在终端和交换机两端遭遇队头阻塞(HOL blocking),进而引发不可预测的排队延迟。传统TCP/IP协议因协议栈处理开销难以满足高带宽低延迟需求,而远程直接内存访问(RDMA, Remote Direct Memory Access)技术虽通过协议栈卸载实现了微秒级传输延迟,但其单路径有序传输特性使得短消息仍易被长消息阻塞。现有方案如NEM和SRM仅优化终端调度,未解决交换机侧的HOL问题;多路径RDMA(MP-RDMA)虽提升长消息吞吐量,但缺乏全局优先级协同。因此,本研究旨在开发一种全局一致的优先级调度机制GPMP,以实现微秒级消息的低延迟保障与多路径资源的高效利用。

研究方法与流程
1. GPMP框架设计
- 优先级划分:根据消息传输时间(t = m/b,m为消息大小,b为带宽)动态分类消息优先级。微秒级短消息(如<50KB)赋予最高优先级,长消息分配低优先级并启用多路径传输。
- 终端调度:采用严格优先级调度策略,为短消息分配专用高优先级队列对(QP, Queue Pair),长消息通过切片后分发至多路径低优先级QP。通过QP复用技术(每对终端至多建立n+1个QP,n为物理路径数)减少RDMA网卡(RNIC)资源占用。
- 交换机调度:结合严格优先级与带宽保障策略,为高优先级队列分配最低带宽保证(如1Gbps),剩余带宽按优先级动态分配。引入基于优先级的动态缓冲区管理(PFC, Priority-based Flow Control),为高优先级流量低延迟微秒级消息调度:基于全局优先级一致性与RDMA网络的多路径传输机制GPMP

本研究由南京航空航天大学计算机科学与技术学院的Qiuyu Yu、Tong Zhang(通讯作者)、Kun Zhu、Yufan Tang、Xiaoxiang Hua与清华大学计算机科学与技术系的Fengyuan Ren合作完成,论文发表于2025年IEEE/ACM International Symposium on Quality of Service (IWQoS)。研究聚焦数据中心网络中微秒级消息的尾部延迟优化问题,提出了一种创新的调度机制GPMP(Global-consistent Priority based Multi-Path scheduling),结合全局优先级一致性策略与多路径传输技术,显著降低了高优先级消息的排队延迟,同时提升了低优先级大流的吞吐量。

学术背景

随着数据中心计算速度与网络带宽的提升,在线交互式应用(如Web搜索、键值存储)对微秒级尾部延迟的需求日益严格。然而,现有调度机制(如TCP/IP或传统RDMA)因端侧与网络侧资源协调不足,存在队列阻塞(Head-of-Line Blocking, HOL阻塞)问题,导致高优先级消息的尾部延迟远超传输时间。此外,RDMA单路径传输模式难以充分利用数据中心多路径带宽资源。GPMP旨在通过全局优先级调度与多路径负载均衡,解决上述挑战,满足微秒级延迟需求。

研究流程与方法

  1. 问题建模与系统框架设计

    • 研究对象:数据中心网络中的短消息(<50KB,高优先级)与长消息(低优先级),模拟真实Web搜索流量(70%消息<100KB)。
    • 框架设计:GPMP架构(图1)包含终端调度(优先级队列管理、多路径QP连接复用)与交换机调度(优先级动态缓冲区管理、带宽保证的严格优先级输出调度)。
    • 创新方法
      • 终端调度:短消息通过高优先级QP(Queue Pair)单路径传输;长消息被切片后通过多路径低优先级QP并行传输,采用动态负载均衡(基于未完成字节数限制)。
      • 交换机调度:结合严格优先级与最小带宽保证(如1Gbps/队列),避免低优先级流饥饿;缓冲区管理通过差异化优先级阈值(公式3)优化短消息突发吸收能力。
  2. 多路径实现与资源优化

    • 路径映射:通过源端口号哈希绑定QP到物理路径(图5),静态预配置与动态适配结合,减少RNIC(RDMA网卡)资源消耗。
    • RNIC限制规避:复用QP连接(每对终端至多N+1个QP,N为物理路径数),避免元数据溢出导致的性能下降。
  3. 仿真实验与评估

    • 实验拓扑:基于NS-3模拟16主机、4 TOR、4聚合交换机的Leaf-Spine网络(图6),带宽10Gbps。
    • 对比算法:SP-RDMA(单路径)、MP-RDMA(多路径无优先级)、NEM/SRM(现有终端调度方案)。
    • 性能指标:平均/99分位流完成时间(FCT)、归一化FCT(长流优化比)。

主要结果

  1. 高优先级流性能

    • 全负载下,GPMP实现50KB以下短消息平均FCT 26µs(NEM为33µs),99分位FCT<50µs,优于NEM(图8-9)。
    • 机制分析:端侧与交换机的全局优先级协同(图14)是关键,仅优化单侧(如交换机)时FCT仍显著劣于GPMP。
  2. 长流优化与带宽利用

    • 多路径传输使长流FCT降低30%(负载0.6时,图12-13),但路径数超过4后收益饱和(图15)。
    • 负载均衡有效性:基于字节限制的动态调度避免了路径拥塞,提升吞吐量同时减少RNIC资源争用。

结论与价值

GPMP首次在RDMA网络中实现了端到端全局优先级一致性调度,通过以下贡献推动领域发展:
1. 科学价值:提出优先级与多路径联合优化的理论模型,证明严格优先级+带宽保证策略可兼顾低延迟与公平性。
2. 应用价值:适用于电商、AI训练等混合负载场景,实测中Web搜索负载下短消息延迟达标率超99%。

亮点与创新

  • 端网协同调度:首次统一终端与交换机的优先级策略,解决HOL阻塞全链路问题。
  • 资源高效性:QP复用与动态阈值设计平衡了RNIC资源限制与多路径增益。
  • 可扩展性:静态路径映射适用于大规模拓扑,算法开销低于集中式调度(如SDN)。

其他发现

突发流量场景中,GPMP的优先级缓冲区管理(PFC阈值差异化)使短消息丢包率降低76%,验证了动态阈值公式(1-3)的有效性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com