这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:
本研究由Xuya Jia(腾讯)、Zhiyi Yao(复旦大学/腾讯实习生)、Chao Peng(复旦大学/腾讯实习生)等14位作者合作完成,团队成员来自腾讯、复旦大学、NVIDIA和清华大学。论文发表于ACM SIGCOMM 2024会议(2024年8月4-8日,澳大利亚悉尼),标题为《Turbo: Efficient Communication Framework for Large-Scale Data Processing Cluster》。
科学领域:分布式计算与高性能网络,聚焦于大数据处理框架(如Apache Spark)的通信优化。
研究动机:现有RDMA(Remote Direct Memory Access,远程直接内存访问)技术在大规模集群中存在两大瓶颈:
1. 负载不均衡:ECMP(等价多路径路由)哈希冲突导致链路利用率不均,部分作业完成时间显著延长(部分作业耗时达平均值的2倍以上);
2. 通信中间件阻塞:有限的RNIC(RDMA网卡)工作线程导致任务竞争,降低系统可扩展性。
研究目标:设计Turbo框架,通过动态流片(flowlet)传输机制和非阻塞通信中间件,提升RDMA在高负载、大规模集群中的性能与可靠性。
包含三大核心技术:
- 动态块级流片传输(Block-level Flowlet Transmission):
- 采用动态连接传输(DCT)将数据流分割为流片(flowlet),动态选择源端口以均衡链路负载;
- 创新点:半握手(half-handshake)连接机制减少QP(Queue Pair)建立开销,提升吞吐量15.1%。
- 非阻塞通信中间件:
- 解耦计算与通信,通过门控机制(gate mechanism)动态分配任务至空闲工作线程;
- 创新点:唤醒机制(wake-up mechanism)实现多执行器并行数据传输,减少阻塞。
- 多级容错保障:
- 线程级:RDMA外部混洗服务(ESS)避免线程崩溃导致数据锁定;
- 网络级:TCP作为备用传输层,确保故障恢复。
科学价值:
- 提出首个面向大规模数据处理的RDMA动态流片传输模型,解决了ECMP哈希冲突的固有缺陷;
- 非阻塞中间件设计为分布式系统资源调度提供了新范式。
应用价值:
- 已集成至Apache Spark,适用于腾讯等企业的TB级数据处理场景;
- 兼容现有RDMA硬件,无需替换交换机等基础设施。
该研究通过软硬件协同设计,显著提升了RDMA在大规模场景下的实用性,为数据中心网络优化提供了重要参考。