分享自:

波塞冬:通过可部署的INT实现高效、健壮且实用的数据中心拥塞控制

期刊:20th USENIX Symposium on Networked Systems Design and Implementation

Poseidon:通过可部署的网络内遥测实现高效、鲁棒且实用的数据中心拥塞控制

作者及发表信息

本文由Weitao Wang(Google LLC和Rice University)、Masoud Moshref、Yuliang Li、Gautam Kumar(均来自Google LLC)、T. S. Eugene Ng(Rice University)、Neal Cardwell和Nandita Dukkipati(Google LLC)共同完成,发表于2023年4月17日至19日在美国波士顿举行的第20届USENIX网络系统设计与实现研讨会(NSDI)上。

研究背景与目标

在网络系统领域,数据中心拥塞控制(Congestion Control, CC)算法长期以来面临的关键挑战是难以获取细粒度、逐跳(hop-level)的拥塞状态信息。随着支持网络内遥测(In-Network Telemetry, INT)的商用交换机的出现,研究者们得以设计更先进的CC算法。本文提出了Poseidon,这是一种新型CC协议,通过利用INT技术解决传统CC算法的盲点,实现了以下三个核心特性:
1. 高效性:低排队延迟、高吞吐量和快速收敛
2. 鲁棒性:针对实际瓶颈跳(bottleneck hop)的CC机制,并在多跳和反向路径拥塞等复杂流量模式下实现最大最小公平(max-min fairness)
3. 实用性:支持在混合部署(INT与非INT交换机共存)的环境中的增量部署

研究流程与方法

1. 问题分析与动机

研究团队首先分析了现有CC算法在数据中心环境中的四大局限性:
- 过早降速问题:新流在达到公平份额前就被迫降速(图1实验展示)
- 多跳拥塞不公平:在多跳拥塞场景下,某些流会因跨多跳的累积延迟而处于劣势(图2生产数据)
- 反向路径干扰:反向路径拥塞会错误触发前向流的降速(图3实验结果)
- 收敛速度与稳定性:传统AIMD(加法增加乘法减少)算法在大窗口时收敛慢,小窗口时振荡剧烈

通过测试床实验和仿真(Omnet++),团队量化了这些问题的具体影响:Swift算法在反向路径拥塞时吞吐量下降80%,多跳场景下受害流(victim flow)吞吐量仅为公平份额的16%。

2. 关键设计

Poseidon的核心创新体现在两个层面:

算法设计
- 瓶颈跳识别机制:通过比较每跳最大延迟(Max Per-hop Delay, MPD)与动态调整的目标延迟(Max Per-hop Target, MPT),仅对瓶颈跳做出反应
- 自适应窗口更新函数:打破传统AIMD的固定步长,采用基于速率调整的目标函数(式3)和指数型更新函数(式4),其中:
math t(rate) = p·\frac{ln(max\_rate)-ln(rate)}{ln(max\_rate)-ln(min\_rate)} + k
math u(t,d) = exp[\frac{t(rate)-delay}{p}·α·m]
参数通过敏感性分析确定为p=40, k=2, m=0.25,实现快速收敛(相比Swift提速12倍)和稳定吞吐(高并发时振荡减少70%)

部署方案
- 轻量级INT实现:每包仅需2字节头部空间记录MPD,交换机通过16行P4代码实现线速处理(代码清单1)
- 渐进式部署:支持非INT交换机透明转发,在TOR层优先部署时可获得50%以上的性能收益(图20实验)

3. 实验验证

研究团队在真实测试床和仿真环境中进行了系统验证:

测试床实现
- 基于Google生产级网络栈(类似Pony Express)修改,主机端仅需:
1) 发送方在L4头部后添加2字节INT头
2) 接收方在ACK中反射MPD
3) 发送方按算法1更新窗口
- 交换机侧通过Tofino实现,核心功能仅需2行P4代码:
p4 hdr.telemetry.max_hop_delay = max(hdr.telemetry.max_hop_delay, (eg_intr_md.deq_timedelta>>8));

关键实验结果
- 多跳公平性:当m=2/n=9时,受害流在Poseidon下获得20Gbps公平吞吐,而Swift仅0.16Gbps(图14)
- 反向路径免疫:存在4条反向流时,Poseidon维持10Gbps线速,Swift降至1.91Gbps(图13)
- 应用性能:在128KB消息传输场景下,Poseidon相比Swift降低中值OP延迟61%,99.9分位延迟减少14.5倍(图19)

理论贡献与实践价值

理论层面
1. 首次证明通过MPD+MPT的反馈机制可实现网络级最大最小公平(定理1),该结论通过归纳法严格证明(附录E)
2. 提出满足公平性与高利用率保证的函数簇特征条件(式1-2),为后续CC算法设计提供理论框架

工程价值
1. 在Google生产环境中验证可行性,仅需修改网络栈且无需NIC/应用层改动
2. 定义可部署INT的7大要求(§4.2.1),对比分析IFA与P4-INT格式的适用性
3. 开源仿真实现参数(Omnet++模型,200Gbps链路,64MB缓冲区)可供复现

创新亮点

  1. 方法论突破

    • 首创”仅响应瓶颈跳”设计,解决多跳拥塞下的系统性不公平
    • 通过目标函数缩放(target scaling)替代传统AIMD,实现收敛速度与稳定性的帕累托改进
  2. 技术实现

    • 最简INT开销:2字节/包的开销仅为HPCC的1/3(后者需6字节/跳)
    • 鲁棒性设计:在50%INT交换机部署度下仍保持80%性能增益
  3. 跨场景优势

    • 在ML训练(少量大流)和shuffle操作(数千小流)等差异场景中均优于Swift和HPCC

未来方向

作者建议在以下方向扩展:
1. 将目标缩放思想应用于RDMA协议中的inflight bytes指标
2. 利用INT分解端主机协议栈延迟
3. 结合HOMA等调度策略进一步优化流完成时间

这项研究通过理论创新与工程严谨性的结合,为下一代数据中心网络协议栈提供了可立即部署的解决方案,其方法论对广域网络拥塞控制亦有启示意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com