分享自:

KRCore:弹性计算的微秒级RDMA控制平面

期刊:2022 USENIX Annual Technical Conference

学术研究报告:KRCORE——面向弹性计算的微秒级RDMA控制平面


一、研究团队与发表信息

本文由上海交通大学并行与分布式系统研究所(IPADS)及上海人工智能实验室的Xingda Wei、Fangming Lu、Rong Chen(通讯作者)和Haibo Chen合作完成,发表于2022 USENIX Annual Technical Conference (USENIX ATC ‘22),会议于2022年7月11日至13日在美国加利福尼亚州卡尔斯巴德举行。论文标题为《KRCORE: A Microsecond-Scale RDMA Control Plane for Elastic Computing》,并获会议收录为开源论文(Open Access)。


二、学术背景与研究目标

科学领域与背景

研究聚焦于高性能数据中心网络,具体针对远程直接内存访问(RDMA, Remote Direct Memory Access)技术的控制平面优化。RDMA因其高带宽、低延迟特性被广泛应用于分布式存储、数据库和Serverless计算等领域。然而,传统RDMA的控制路径(Control Path)存在显著瓶颈:建立连接需15.7毫秒(ms),是数据路径(Data Path)操作的15,700倍,严重制约了弹性计算(Elastic Computing)场景下的资源动态扩展效率。

研究动机

弹性计算应用(如分解式存储系统、Serverless函数)需频繁启停计算节点,RDMA连接的创建时间成为关键瓶颈。现有解决方案如Lite虽通过内核空间连接池(Connection Pool)优化,但仍面临三大问题:
1. 高连接成本:缓存未命中时仍需完整初始化(2ms/连接);
2. 内存低效:全集群连接池占用GB级内存(如10,000节点需1.52GB/节点);
3. 接口僵化:仅支持高层API,无法兼容现有RDMA优化技术(如批处理、异步请求)。

研究目标

提出KRCORE,一种基于动态连接传输(DCT, Dynamic Connected Transport)的内核级RDMA库,实现:
- 微秒级连接建立(10µs,较Verbs快1,570倍);
- 固定内存开销(与集群规模无关,仅需64MB);
- 低层Verbs API兼容性,支持现有RDMA优化技术。


三、研究方法与流程

1. 核心创新:DCT虚拟化与混合连接池

  • DCT硬件特性利用:DCT允许单QP(Queue Pair)动态连接多主机,硬件级重连耗时µs。KRCORE通过虚拟化预初始化的内核空间DCT连接,避免逐次创建开销。
  • 混合连接池设计
    • 静态DCT QP:处理短时通信,减少内存占用;
    • 动态RC QP:为高频通信节点保留,提升数据路径性能。
    • 透明切换协议:根据通信模式自动切换DCT与RC QP。

2. 关键技术挑战与解决方案

  • C1:DCT元数据高效查询

    • 问题:传统RPC查询引入CPU开销与延迟波动。
    • 方案:基于RDMA的键值存储(如DRTM-KV)构建元数据服务器,支持单边RDMA读取(One-Sided RDMA Read),延迟稳定在微秒级。
  • C2:DCT性能缺陷

    • 问题:DCT峰值吞吐低于RC(Reliable Connected)传输。
    • 方案:混合池中保留少量RC QP,高频通信时自动切换。
  • C3:QP状态保护

    • 问题:共享QP易因非法请求崩溃。
    • 方案:请求预检机制(Pre-Check),验证队列容量与内存区域(MR)有效性,避免硬件重配。

3. 系统架构与实现

  • 内核模块:以Rust实现Linux可加载模块,扩展MLNX-OFED驱动支持内核DCT。
  • 元数据管理:全局服务器存储DCT元数据(12B/节点),本地缓存(DCCache)减少查询延迟。
  • 零拷贝协议:针对大消息传输,通过RDMA Read直接写入用户缓冲区,消除内核拷贝开销。

四、主要实验结果

1. 控制路径性能

  • 单连接建立:5.4µs(Verbs:15.7ms,Lite:2ms);
  • 全网状连接:240节点全互联仅81µs(Verbs:2.7s)。
  • 元数据查询:RDMA-KVS方案较RPC快13倍(延迟0.9µs vs. 11.7µs)。

2. 数据路径性能

  • 单边RDMA读
    • 同步模式延迟3.24µs(较Verbs高27%),主因系统调用开销;
    • 异步模式峰值吞吐118M reqs/sec(RC QP可达138M reqs/sec)。
  • 双边RDMA:零拷贝协议将16KB消息传输延迟降低99%(33.3ms→0.12µs)。

3. 应用场景验证

  • Race哈希存储系统:计算节点启动时间缩短83%(1.4s→244ms);
  • Serverless计算(FN平台):RDMA数据传输延迟降低99%。

五、结论与价值

科学价值

  1. 方法论创新:首次将DCT应用于内核级RDMA虚拟化,实现控制路径与数据路径解耦;
  2. 系统设计普适性:混合连接池与透明切换协议可扩展至其他网络协议栈优化。

应用价值

  • 弹性计算加速:为分解式存储、Serverless等场景提供亚毫秒级资源扩展能力;
  • 硬件兼容性:支持商用RDMA网卡(如Mellanox ConnectX系列),无需硬件修改。

六、研究亮点

  1. 性能突破:首次实现微秒级RDMA控制平面,连接建立速度较现有技术提升3个数量级;
  2. 资源效率:固定内存占用突破集群规模限制,适合超大规模数据中心;
  3. 生态兼容:低层Verbs API支持无缝集成现有RDMA优化(如Race哈希的Doorbell批处理)。

七、其他贡献

(注:全文术语首次出现均标注英文原文,如“动态连接传输(DCT, Dynamic Connected Transport)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com