REDTE：利用实时分布式流量工程缓解亚秒级流量突发

分享自：
REDTE：利用实时分布式流量工程缓解亚秒级流量突发

期刊:ACM SIGCOMMDOI:10.1145/3651890.3672231
关于REDTE：一种实时分布式流量工程系统以缓解亚秒级流量突发的研究报告
本报告旨在向中国学术界介绍一项于2024年发表在ACM SIGCOMM会议上的最新研究成果。该研究由清华大学、中关村实验室、广东省通信与网络研究院及南方科技大学未来网络研究院的研究人员合作完成，论文题为《REDTE: Mitigating Subsecond Traffic Bursts with Real-Time and Distributed Traffic Engineering》。本研究聚焦于计算机网络领域的流量工程（Traffic Engineering, TE），提出了一种创新的分布式实时流量工程系统REDTE，旨在有效缓解广域网（Wide Area Network, WAN）中存在的亚秒级流量突发问题。
一、 研究背景与动机
互联网流量具有显著的突发性，这种突发通常发生在亚秒级时间尺度内。流量突发会导致路由器队列堆积，引发长尾延迟甚至丢包，严重影响用户体验。传统的突发缓解方法主要分为两类：端主机机制（如BBR、QUIC等）和设备本地流量管理器。然而，端主机机制通常由应用层或传输层实现，互联网服务提供商（ISP）难以强制部署；而设备本地流量管理器仅基于本地信息进行决策，难以达成网络级的全局优化目标。
与此同时，流量工程（TE）作为一种经典的网络优化技术，能够利用全网隧道级信息做出全局最优决策（例如，在多个路径间平衡流量负载），理论上具备处理流量突发的潜力。然而，现有的TE系统（无论是基于全局线性规划（Linear Programming, LP）的集中式方案，还是早期的分布式方案）均存在控制环路延迟过高的问题。集中式TE系统需要收集全网信息、集中计算并下发决策，其控制环路延迟通常在秒级甚至分钟级，远慢于亚秒级的流量突发。而传统的分布式TE方案（如TEXCP）则需要多轮迭代才能收敛，收敛时间也至少需要数秒。因此，现有TE系统被认为无法有效应对瞬时流量突发。
本研究团队通过实验发现，控制环路延迟是决定TE能否有效缓解流量突发的关键。实验表明，当TE系统的控制环路延迟降低至亚秒级（例如50毫秒）时，网络的最大链路利用率（Maximum Link Utilization, MLU）可降低39.0%至47.8%，显著减少因突发导致的暂时性拥塞。这一发现构成了本研究的核心动机：能否设计一种控制环路延迟低于100毫秒，同时性能可与集中式TE系统相媲美的分布式TE系统？ 本研究提出的REDTE正是为了回答这个问题。
二、 研究设计、方法与工作流程
REDTE的核心设计理念是将分布式TE建模为一个合作式多智能体（Cooperative Multi-Agent）问题，并利用一种新颖的多智能体深度强化学习（Multi-Agent Deep Reinforcement Learning）算法进行求解。其系统架构包含两个主要实体：REDTE路由器和REDTE控制器。
1. 系统架构与工作流程： * REDTE路由器：部署在网络边缘。每个路由器作为一个独立的智能体（Agent），基于本地信息（如本地链路利用率、带宽以及源自本路由器、去往其他边缘路由器的当前流量需求）进行实时决策。决策输出是针对每个源-目的边缘路由器对的流量在多个预配置路径上的分割比例。路由器通过高效的P4可编程数据平面进行数据收集和流量分割执行。 * REDTE控制器：负责中心化的模型训练。它收集历史流量矩阵（Traffic Matrix, TM）和网络拓扑信息，在仿真环境中回放流量，运行强化学习算法来训练每个REDTE路由器的本地模型。训练完成后，模型被分发至各路由器。训练过程定期离线进行，以应对模型性能退化。
2. 核心算法创新： 研究团队设计了三个关键算法组件来解决分布式实时TE面临的挑战。
a) 基于MADDPG的稳定多智能体学习算法： 直接将单智能体强化学习应用于多智能体TE场景会导致“学习不稳定”问题，因为每个智能体在仅观察局部环境的情况下，难以评估自身动作对全局目标（如最小化全网MLU）的贡献，环境对其而言是非平稳的。REDTE采用了多智能体深度确定性策略梯度（Multi-Agent Deep Deterministic Policy Gradient, MADDPG） 算法。该算法引入了一个全局评论家网络（Global Critic Network）。在训练阶段，这个全局评论家网络能够观察到所有智能体的动作和部分全局状态（如某些中间链路的利用率），从而评估联合动作的全局价值，并区分每个智能体动作的贡献。通过这种方式，所有智能体能够在中心化训练的引导下，学会仅基于本地信息做出有利于全局优化的协作决策，解决了学习不稳定问题。
b) 兼顾性能与更新开销的奖励函数设计： 在基于机器学习的TE系统中，当算法计算时间和数据收集时间大幅缩短后，规则表（Rule Table）的更新时间成为控制环路延迟的新瓶颈。传统的TE优化目标（如最小化MLU）并不考虑规则表更新的代价，可能导致大量不必要的路径调整，从而增加更新延迟。REDTE在奖励函数中引入了一项惩罚项，用于表征更新规则表的时间成本。新的奖励函数为：r_i = -u_max - α * max( sum( f(d_i,j) ) )，其中u_max是最大链路利用率，d_i,j是针对边缘对(i, j)更新的规则表条目数，f(·)将其转换为时间，α是一个折扣参数。通过精心调整α，REDTE能够在几乎不牺牲TE性能的前提下，显著减少不必要的规则表更新。实验表明，REDTE能将规则表更新的最大条目数减少64.9%至87.2%。
c) 加速收敛的循环流量矩阵回放训练策略： TE环境是一个“输入驱动”的环境，其状态转移不仅受智能体动作影响，也受不断到达的新流量矩阵驱动。标准的强化学习训练策略（顺序回放所有TM）会导致每个TM在一个训练周期内只出现一次，模型难以针对同一状态进行多次优化，收敛困难且性能波动大。REDTE提出了一种循环TM回放（Circular TM Replay） 机制。该机制将长的TM序列划分为多个TM子序列，每次固定回放一个子序列多次，待模型在该子序列上有效训练后，再切换到下一个子序列。这种方法既能让智能体在短期内多次经历相似的TM状态，稳定训练过程，又能尽可能保留TM序列中的流量模式信息，从而加速模型收敛，提升最终性能。实验显示，该策略能使训练收敛趋势平稳，性能逐步逼近最优。
3. 系统实现与优化： 研究团队在Barefoot Wedge100BF-32X交换机（搭载Tofino ASIC芯片）上实现了REDTE路由器原型。为实现亚100毫秒的控制环路，进行了多项关键优化： * 控制平面优化：将耗时的配置一致性操作移出关键路径，节省了约100毫秒；将测量、推理和表项更新进程绑定到特定CPU核心，避免进程调度干扰，稳定了执行时序。 * 数据平面高效数据收集：利用P4编程实现高效的数据收集机制，能在11.1毫秒内完成对多达754个节点网络的流量需求测量。采用了交替读写寄存器组的策略，确保数据收集的准时性和周期性。 * 基于SRv6的流量分割：使用基于IPv6的段路由（Segment Routing over IPv6, SRv6）隧道来实施流量分割。研究评估表明，对于一个754个节点的网络，实现流量分割所需的总内存开销约为61KB，在现代交换机的硬件资源范围内。
三、 主要实验结果与分析
研究团队通过真实广域网测试床和大规模网络仿真对REDTE进行了全面评估。
1. 评估设置： * 真实WAN测试床（APW）：跨越6个城市数据中心，部署了物理REDTE路由器。设置了三种流量场景：WIDE公开数据包轨迹回放、全对全iperf流、全对全动态视频流。 * 大规模仿真：使用NS3仿真器，在多个公开ISP拓扑（如COLT、KDL）及一个大型ISP拓扑（AMIW）上进行测试。使用WIDE的公开数据包轨迹生成流量。 * 对比方案：包括基于全局LP的TE、POP（一种加速的集中式LP方法）、DOTE（基于监督学习的集中式TE）、TEAL（基于RL的集中式TE）以及TEXCP（传统分布式TE）。
2. 关键性能结果：
控制环路延迟：REDTE成功将控制环路延迟降低到100毫秒以内。对于具有754个节点、1790条链路的KDL拓扑，REDTE的控制环路延迟为95.56毫秒（数据收集11.09毫秒 + 计算12.57毫秒 + 规则表更新71.90毫秒）。相较于全局LP、POP、DOTE和TEAL，REDTE分别将控制环路速度提升了341.1倍、19.0倍、11.2倍和10.9倍。规则表更新时间的显著降低是达成此目标的关键。
流量工程性能：
在真实测试床（APW）上：当控制环路延迟设置为与大规模网络（如KDL）相当时，REDTE在三种流量场景下，相较于对比方案，平均归一化MLU降低了12.0%至31.8%，最大队列长度（Maximum Queue Length, MQL）降低了24.2%至57.7%。
在大规模仿真中：在四个不同拓扑上，REDTE相较于所有对比方案，平均归一化MLU降低了14.6%至37.4%，平均队列长度降低了44.1%至78.9%。同时，路径排队延迟平均降低了53.3%至75.9%，MLU超过容量升级阈值（50%）的事件次数减少了15.8%至38.3%。
突发缓解能力：在模拟一个持续500毫秒的流量突发时，REDTE得益于极低的控制环路延迟，能够最快做出TE决策，将突发流量重定向至利用率较低的路径，从而在突发期间将MLU和队列长度控制在最低水平。
方案质量（忽略延迟的理想情况）：即使在仅比较算法解决方案质量（不考虑控制环路延迟）的数值仿真中，REDTE凭借其MADDPG算法和循环TM回放训练，性能也与集中式机器学习方案（TEAL, DOTE）相当，并优于启发式加速方案POP。
鲁棒性评估：
网络故障：当随机使最多4.0%的链路或0.5%的路由器失效时，REDTE的性能损失最大仅为5.1%，且相比POP仍能实现17.1%至20.7%的归一化MLU降低，表现出强鲁棒性。
流量模式漂移：对测试数据集的流量需求施加随机缩放（模拟空间模式漂移），或使用训练后数周的数据进行测试（模拟时间模式漂移），REDTE性能下降幅度很小（空间漂移下最多2.8%，时间漂移下8周后仍在最优值的10%以内）。
神经网络结构：实验表明，REDTE对Actor和Critic网络的具体结构（隐藏层数和神经元数）不敏感，性能差异小于1.2%，为运营商部署提供了灵活性。
四、 研究结论与价值
本研究成功设计并实现了REDTE，一个控制环路延迟低于100毫秒的实时分布式流量工程系统。通过将分布式TE建模为合作式多智能体问题，并创新性地应用MADDPG算法、设计兼顾更新成本的奖励函数以及提出循环TM回放训练策略，REDTE使得每个路由器能够仅凭本地信息做出近似全局最优的决策，从而在极低的延迟下有效缓解亚秒级流量突发。
本研究的科学价值与应用价值在于： 1. 理论方法创新：首次系统性地论证了将多智能体深度强化学习与分布式网络控制相结合，以解决亚秒级实时TE问题的可行性，并为解决类似合作式分布式优化问题提供了新的算法框架（如全局评论家网络和循环回放策略）。 2. 实践系统突破：实现了从算法设计到系统原型（基于可编程交换硬件）的完整闭环，证明了在真实网络环境中实现毫秒级分布式TE控制的工程可行性。 3. 性能显著提升：相较于现有最优方案，REDTE在控制延迟、网络利用率（降低高达37.4%）、队列长度（降低高达78.9%）和排队延迟等方面均带来数量级的提升或显著改善，为ISP提供了一种能够在不对现有网络进行过度资源供给（Overprovisioning）的前提下，显著提升网络效率、降低运营成本并改善用户体验的切实可行的解决方案。 4. 强鲁棒性：研究证实了REDTE在面对网络故障和流量模式变化时具有高度的适应性，这对其在实际复杂网络环境中的部署至关重要。
五、 研究亮点
核心发现：明确并实证了控制环路延迟是TE能否有效缓解亚秒级流量突发的关键瓶颈，颠覆了传统观念。
方法论创新： 开创性地将分布式TE形式化为一个合作式多智能体强化学习问题。
设计了基于MADDPG的稳定训练框架，解决了多智能体在TE场景中的协作难题。
提出了新颖的奖励函数，首次在TE优化目标中显式考虑了决策部署（规则表更新）的时间成本，从而系统性优化了整个控制环路。
提出了循环TM回放训练策略，有效解决了输入驱动环境下RL训练的收敛难题。
系统实现：在可编程交换硬件上实现了完整的原型系统，并通过多项优化（如异步一致性操作、CPU绑定、高效数据收集）切实达成了亚100毫秒的控制环路延迟。
全面且严格的评估：通过真实跨城域测试床和大规模仿真，在多种流量模式、多个网络拓扑下，从延迟、性能、鲁棒性等多个维度进行了全面验证，结果具有高度说服力。
六、 其他有价值内容
本研究还详细讨论了REDTE与现有各类方案的对比（包括传统突发缓解方案、集中式LP TE、加速LP方案、传统分布式TE及其他机器学习TE方案），清晰地阐明了REDTE在设计思路（分布式协同 vs. 集中式）、优化目标（全局延迟 vs. 仅计算性能）和技术路径（MADDPG与循环回放）上的差异与优势。此外，论文对数据平面内存开销、模型训练时间（大型网络约半天）等实际部署细节也进行了分析，增强了工作的实用性和可复现性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问