KRCore：弹性计算的微秒级RDMA控制平面

分享自：
KRCore：弹性计算的微秒级RDMA控制平面

期刊:2022 USENIX Annual Technical Conference
学术研究报告：KRCORE——面向弹性计算的微秒级RDMA控制平面
一、研究团队与发表信息本文由上海交通大学并行与分布式系统研究所（IPADS）及上海人工智能实验室的Xingda Wei、Fangming Lu、Rong Chen（通讯作者）和Haibo Chen合作完成，发表于2022 USENIX Annual Technical Conference (USENIX ATC ‘22)，会议于2022年7月11日至13日在美国加利福尼亚州卡尔斯巴德举行。论文标题为《KRCORE: A Microsecond-Scale RDMA Control Plane for Elastic Computing》，并获会议收录为开源论文（Open Access）。
二、学术背景与研究目标科学领域与背景研究聚焦于高性能数据中心网络，具体针对远程直接内存访问（RDMA, Remote Direct Memory Access）技术的控制平面优化。RDMA因其高带宽、低延迟特性被广泛应用于分布式存储、数据库和Serverless计算等领域。然而，传统RDMA的控制路径（Control Path）存在显著瓶颈：建立连接需15.7毫秒（ms），是数据路径（Data Path）操作的15,700倍，严重制约了弹性计算（Elastic Computing）场景下的资源动态扩展效率。
研究动机弹性计算应用（如分解式存储系统、Serverless函数）需频繁启停计算节点，RDMA连接的创建时间成为关键瓶颈。现有解决方案如Lite虽通过内核空间连接池（Connection Pool）优化，但仍面临三大问题：
 1. 高连接成本：缓存未命中时仍需完整初始化（2ms/连接）；
 2. 内存低效：全集群连接池占用GB级内存（如10,000节点需1.52GB/节点）；
 3. 接口僵化：仅支持高层API，无法兼容现有RDMA优化技术（如批处理、异步请求）。
研究目标提出KRCORE，一种基于动态连接传输（DCT, Dynamic Connected Transport）的内核级RDMA库，实现：
 - 微秒级连接建立（10µs，较Verbs快1,570倍）；
 - 固定内存开销（与集群规模无关，仅需64MB）；
 - 低层Verbs API兼容性，支持现有RDMA优化技术。
三、研究方法与流程1. 核心创新：DCT虚拟化与混合连接池DCT硬件特性利用：DCT允许单QP（Queue Pair）动态连接多主机，硬件级重连耗时µs。KRCORE通过虚拟化预初始化的内核空间DCT连接，避免逐次创建开销。
 
混合连接池设计：
 静态DCT QP：处理短时通信，减少内存占用；
 
动态RC QP：为高频通信节点保留，提升数据路径性能。
 
透明切换协议：根据通信模式自动切换DCT与RC QP。
 
2. 关键技术挑战与解决方案C1：DCT元数据高效查询
问题：传统RPC查询引入CPU开销与延迟波动。
 
方案：基于RDMA的键值存储（如DRTM-KV）构建元数据服务器，支持单边RDMA读取（One-Sided RDMA Read），延迟稳定在微秒级。
 
C2：DCT性能缺陷
问题：DCT峰值吞吐低于RC（Reliable Connected）传输。
 
方案：混合池中保留少量RC QP，高频通信时自动切换。
 
C3：QP状态保护
问题：共享QP易因非法请求崩溃。
 
方案：请求预检机制（Pre-Check），验证队列容量与内存区域（MR）有效性，避免硬件重配。
 
3. 系统架构与实现内核模块：以Rust实现Linux可加载模块，扩展MLNX-OFED驱动支持内核DCT。
 
元数据管理：全局服务器存储DCT元数据（12B/节点），本地缓存（DCCache）减少查询延迟。
 
零拷贝协议：针对大消息传输，通过RDMA Read直接写入用户缓冲区，消除内核拷贝开销。
 
四、主要实验结果1. 控制路径性能单连接建立：5.4µs（Verbs：15.7ms，Lite：2ms）；
 
全网状连接：240节点全互联仅81µs（Verbs：2.7s）。
 
元数据查询：RDMA-KVS方案较RPC快13倍（延迟0.9µs vs. 11.7µs）。
 
2. 数据路径性能单边RDMA读：
 同步模式延迟3.24µs（较Verbs高27%），主因系统调用开销；
 
异步模式峰值吞吐118M reqs/sec（RC QP可达138M reqs/sec）。
 
双边RDMA：零拷贝协议将16KB消息传输延迟降低99%（33.3ms→0.12µs）。
 
3. 应用场景验证Race哈希存储系统：计算节点启动时间缩短83%（1.4s→244ms）；
 
Serverless计算（FN平台）：RDMA数据传输延迟降低99%。
 
五、结论与价值科学价值方法论创新：首次将DCT应用于内核级RDMA虚拟化，实现控制路径与数据路径解耦；
 
系统设计普适性：混合连接池与透明切换协议可扩展至其他网络协议栈优化。
 
应用价值弹性计算加速：为分解式存储、Serverless等场景提供亚毫秒级资源扩展能力；
 
硬件兼容性：支持商用RDMA网卡（如Mellanox ConnectX系列），无需硬件修改。
 
六、研究亮点性能突破：首次实现微秒级RDMA控制平面，连接建立速度较现有技术提升3个数量级；
 
资源效率：固定内存占用突破集群规模限制，适合超大规模数据中心；
 
生态兼容：低层Verbs API支持无缝集成现有RDMA优化（如Race哈希的Doorbell批处理）。
 
七、其他贡献开源实践：代码与实验数据公开于GitHub（https://github.com/sjtu-ipads/krcore-artifacts）；
 
虚拟化扩展潜力：文中探讨了KRCORE在容器化云环境（如FreeFlow）中的应用前景。
 
（注：全文术语首次出现均标注英文原文，如“动态连接传输（DCT, Dynamic Connected Transport）”）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问