分享自:

高速局域网交换机调度研究

期刊:ACM Transactions on Computer Systems

学术报告:面向高性能局域网的AN2高速交换机设计与调度算法研究

本报告旨在向学术界同仁介绍由Thomas E. Anderson(加州大学伯克利分校)与Susan S. Owicki, James B. Saxe, Charles P. Thacker(数字设备公司系统研究中心)共同完成的一项关于高速交换机设计与调度算法的原创性研究工作。该研究以“High-Speed Switch Scheduling for Local-Area Networks”为题,发表于1993年11月的《ACM Transactions on Computer Systems》期刊第11卷第4期。

一、 研究的学术背景

本研究属于计算机网络体系结构与设计领域,具体聚焦于高速局域网交换机的核心调度问题。上世纪90年代初,激光与光纤技术的进步使得吉比特每秒(Gbit/s)的点对点链路成为可能,动态RAM芯片成本的下降为高速链路所需的大容量缓冲提供了经济可行性,CMOS技术的成熟则使得快速路由与交换决策得以实现。这些技术趋势的汇聚,为构建支持高性能分布式计算的实用局域网创造了条件。然而,构建此类网络的主要障碍在于高速交换的难度,即如何快速地将到达交换机输入端口的数据调度并转发至正确的输出端口。传统的基于共享总线或共享内存的方法难以满足未来高速链路的扩展需求,而采用自路由多级互连网络(如Banyan网络)的交换机则存在内部阻塞问题,难以提供性能保证。

本研究旨在设计并实现一种适用于任意拓扑点对点局域网的原型交换机(AN2),其链路速率高达1 Gbit/s,能够处理每秒3700万个固定长度的ATM信元。研究目标不仅是为数据报流量提供高带宽与低延迟,更重要的是支持实时流量,通过带宽预留提供有保证的延迟界限。为实现这一目标,研究核心在于解决交换机调度的关键挑战——如何在每个时隙内快速、高效地识别一组无冲突的信元进行传输。

二、 研究工作的详细流程

本研究并非传统意义上的实验科学,而是一项涵盖算法设计、性能分析、硬件架构设计与仿真的系统工程研究。其工作流程主要包括以下几个紧密相连的环节:

  1. 问题定义与架构选择:研究首先明确了交换机的设计目标与约束。核心决策是采用输入缓冲的交叉开关(Crossbar)架构,并将调度功能与数据转发功能分离。这种分离允许对两个功能进行硬件专门化。研究指出,交换机成本主要由驱动光纤链路的光学组件主导,因此为调度增加专用硬件的成本是合理的,尤其是当这能提高链路利用率时。研究选择处理固定长度的ATM信元(53字节),这简化了缓冲管理,并使性能保证更易于实现。

  2. 核心调度算法——并行迭代匹配(Parallel Iterative Matching)的设计与实现

    • 算法原理:研究将交换机调度问题建模为二分图匹配问题。每个时隙,需要将输入端口与输出端口配对,且每个输入/输出最多只能配对一次。PIM算法通过并行、随机化和迭代的方式快速找到一个极大匹配。
    • 工作流程:算法在每轮迭代中执行三个并行步骤:(a)请求:每个未匹配的输入端口向其所有有待发送信元的输出端口发送请求。(b)授权:每个收到请求的未匹配输出端口,随机选择一个请求进行授权。(c)接受:每个收到授权的未匹配输入端口,随机选择一个授权进行接受,从而形成一个匹配。匹配成功的端口在后续迭代中不再参与。此过程迭代进行(在AN2原型中固定为4次迭代),以填补前几轮留下的“空隙”,从而在极短时间内获得一个高覆盖率的匹配。
    • 硬件实现考量:研究详细阐述了在硬件中实现PIM的可行性。关键组件包括连接所有输入和输出的请求/授权线阵(O(N^2)复杂度,但对于中等规模交换机成本可控),以及用于在每个输出端口随机选择请求的机制(可通过预计算表实现)。研究还设计了支持随机访问的输入缓冲结构,每个数据流(flow)拥有独立的FIFO队列,只有队列首部的信元有资格参与调度,这避免了队头阻塞(Head-of-Line Blocking)同时保持了流内顺序。
  3. 支持实时流量(CBR)的机制设计

    • 预留与调度框架:为提供带宽和延迟保证,研究采用了基于帧(Frame)的预留方案。应用以“每帧信元数”为单位请求带宽。网络管理软件在路径上所有链路均有足够空闲容量时批准请求。
    • 静态调度表生成:每个交换机为获得批准的恒定比特率(CBR)流构建一个固定的帧调度表。研究采用了基于Slepian-Duguid定理的算法来安排时隙,确保在任何输入或输出端口,每帧预留的信元数不超过帧长。当新增预留时,算法通过交换现有连接来动态重组调度表,而不会中断已有保证。
    • 时钟不同步与缓冲/延迟界限分析:针对实际网络中交换机时钟可能不同步的问题,研究提出了创新的解决方案:通过为网络控制器(而非交换机)的帧添加额外的空时隙,约束信元注入网络的速率,使其慢于最慢的下游交换机。在此基础上,研究通过严谨的数学推导(见论文附录B),证明了即使存在时钟漂移,CBR流在每个交换机所需的缓冲空间(约4-5帧)以及端到端延迟(与路径长度、帧大小和链路延迟成比例)仍然是有界的。
  4. 公平性与动态分配——统计匹配(Statistical Matching)算法的提出

    • 动机:研究指出,基础的PIM算法和基于静态调度的CBR支持机制,可能无法在数据报(VBR)流量间公平分配带宽,也难以支持带宽需求快速变化的实时应用。
    • 算法设计:统计匹配是PIM的泛化。它将每个链路的可分配带宽划分为X个离散单元。输出端口j根据分配给输入i的带宽单元数X{i,j},按比例随机地向某个输入i授权。输入端口则将接收到的每个物理授权“解释”为0到X{i,j}之间的一个随机数量的“虚拟授权”,其概率分布模拟了每个虚拟授权以1/X概率独立生成的情况。最后,输入端口在所有收到的虚拟授权中随机选择一个接受。通过这种方式,输入i与输出j匹配的概率近似正比于X_{i,j}/X。研究表明,经过两轮独立的统计匹配迭代,最多可将约72%的链路带宽按预定模式进行分配,剩余带宽可由标准PIM填充。
  5. 性能评估与仿真验证

    • 研究方法:研究通过大量仿真实验,将PIM算法与两种基准方案——简单的FIFO输入队列和理想但不可实现的完美输出队列(Perfect Output Queuing)——进行了对比。
    • 仿真设置:仿真针对一个16x16的交换机,在两种典型流量模式下进行:(a)均匀流量:信元目的地均匀分布。(b)客户端-服务器流量:少数服务器端口承载大部分流量。
    • 评估指标:主要评估了平均排队延迟(以信元时隙计)随网络负载(Offered Load)变化的曲线。
    • 迭代次数分析:通过仿真验证了对于16x16交换机,运行4轮PIM迭代足以在绝大多数情况下找到极大匹配,更多迭代带来的性能提升微乎其微。

三、 研究的主要结果

  1. PIM算法的性能结果:仿真结果表明:(a)在低负载下,三种调度算法(FIFO, PIM, 完美输出队列)性能差异不大。(b)在中等至高负载下,PIM和完美输出队列均不受FIFO队列所面临的队头阻塞限制,而PIM的排队延迟虽高于完美输出队列,但仍处于合理范围。(c)在均匀负载下,PIM的峰值吞吐量非常接近理想的完美输出队列。例如,在95%的链路利用率下,AN2交换机(53字节信元,1 Gbit/s链路)的平均排队延迟低于13微秒。(d)在非均匀的客户端-服务器负载下,PIM的表现甚至更接近最优。(e)迭代次数仿真证实,4次迭代已足够,其延迟性能与运行至收敛(无限迭代)的结果相差在0.5%以内。

  2. 实时性能保证机制的有效性:研究通过理论证明(而非仿真)表明,所提出的基于帧的静态调度方法,结合对控制器帧长的约束,能够确保在存在时钟漂移的网络中,为CBR流量提供有界的端到端延迟和确定性的缓冲空间需求。这为多媒体等实时应用提供了坚实的理论基础。

  3. 统计匹配的分配能力:通过概率分析(见论文附录C),研究证明统计匹配算法能够将高达约72%的链路带宽按照任意预先指定的模式(只要任何输入或输出的总预留不超过72%)进行分配。这为在交换机层面实现公平带宽分配或支持动态带宽需求的实时流提供了一种高效的、基于随机化的分布式方法。

  4. 算法收敛性证明:研究在附录A中提供了理论证明,表明PIM算法平均在O(log N)次迭代内收敛到一个极大匹配(其中N为交换机端口数),且该界限与初始请求模式无关。这从理论上支撑了其高速运行的可行性。

四、 研究的结论与价值

本研究成功设计并详细阐述了AN2高速交换机的核心架构与调度算法。其主要结论是:通过将调度与数据转发分离,并采用创新的并行迭代匹配(PIM)算法,可以经济高效地实现一个支持吉比特速率、具有高吞吐量和低延迟的输入缓冲交叉开关交换机。此外,通过结合基于帧的静态调度,该交换机能够为实时流量提供严格的带宽和延迟保证;而统计匹配算法则为进一步实现动态带宽分配和公平性提供了可能。

本研究的科学价值在于: 1. 首次系统性地提出并分析了PIM这一适用于高速交换的分布式、随机化、迭代式匹配算法,为其收敛性和性能提供了理论和仿真依据。 2. 创新性地解决了在输入缓冲、时钟非同步的网络中为CBR流量提供确定性能保证的难题,提出了完整的预留、调度和缓冲界限分析框架。 3. 提出了统计匹配算法,将随机化从提高效率的工具扩展为按比例分配资源的机制,为网络资源公平分配开辟了新思路。

应用价值体现在为构建下一代高性能局域网交换机提供了切实可行的蓝图。AN2原型机的设计表明,使用现成的FPGA技术即可实现处理37M信元/秒的调度器,证明了该方案的工程可行性。研究指出,此类高性能网络将改变分布式计算的本质,使分布式系统能够实现比过去更紧密的耦合,并支持桌面多媒体、工作站网络超级计算等新型应用。

五、 研究的亮点

  1. 算法创新性并行迭代匹配(PIM) 是本研究的核心亮点。它将复杂的二分图最大匹配问题,通过巧妙的并行、随机、迭代式三步协议,转化为可在对数时间内找到高质量极大匹配的实用算法,完美平衡了性能与实现复杂度。
  2. 系统整合能力:研究没有局限于单一算法,而是构建了一个完整的交换机服务体系。它将高效的数据报调度(PIM)、确定性的实时流量保障(静态调度) 以及灵活的动态资源分配(统计匹配) 有机地整合在同一架构下,展示了如何用不同的“技巧袋”解决不同性质的问题。
  3. 工程与理论的结合:研究不仅提出了算法,还深入探讨了硬件实现成本(指出光电器件是主要成本,调度逻辑占比很小)、可行性(使用FPGA)以及性能边界(通过仿真和理论证明)。特别是对时钟不同步下CBR性能保证的分析,体现了深厚的理论功底和对实际工程挑战的深刻理解。
  4. 性能卓越:仿真结果表明,PIM的性能在均匀和非均匀负载下都极为接近理论上限(完美输出队列),远超简单的FIFO队列,同时避免了输出队列方案的高硬件成本和多级网络方案的内部阻塞及信元丢失问题。

六、 其他有价值内容

论文还深入讨论了相关背景工作,比较了共享内存、总线、交叉开关、Batcher-Banyan等多种交换机架构的优劣,分析了输入FIFO队列导致队头阻塞和稳态阻塞的原理,以及输出队列、再循环队列等替代方案的局限性,为AN2设计选择输入缓冲交叉开关加专用调度器的方案提供了充分的论据。此外,对交换机规模(16x16至64x64)、内部互连(交叉开关 vs. Batcher-Banyan)、定长信元与变长分组的权衡等设计参数的讨论,也极具工程参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com