分享自:

Slingshot互连网络的深入分析

期刊:IEEE

这篇文档属于类型a,即报告一项原创性研究的学术论文。以下是针对该研究的综合性学术报告:


Slingshot互连网络的深度分析:面向超大规模计算系统的创新架构

一、作者与机构信息

本研究由Daniele De Sensi、Salvatore Di Girolamo(苏黎世联邦理工学院计算机科学系)、Kim H. McMahon、Duncan Roweth(惠普企业HPE)以及Torsten Hoefler(苏黎世联邦理工学院)合作完成,发表于2020年IEEE国际高性能计算、网络、存储与分析会议(SC20)。

二、学术背景

研究领域与动机
随着超算系统规模逼近百亿亿次级(Exascale),互连网络(Interconnect)的性能成为制约应用效率的关键瓶颈。传统网络在高并发和混合负载(HPC、AI、数据中心)场景下面临两大挑战:
1. 拥塞问题:通信密集型应用(如HPCG)的性能仅为计算密集型应用(如HPL)的1/50,主因是网络拥塞导致的尾部延迟(Tail Latency)激增。
2. 协议兼容性:数据中心广泛采用以太网(Ethernet),但传统以太网协议无法满足HPC的低延迟需求。

研究目标
为解决上述问题,Cray(现为HPE子公司)设计了Slingshot互连网络,其主要创新目标包括:
- 通过高基数交换机(High-Radix Switches)构建三层跳数(3-hop)的低直径网络;
- 实现硬件级自适应路由(Adaptive Routing)和拥塞控制(Congestion Control);
- 兼容标准以太网协议的同时优化HPC性能。

三、研究方法与流程

1. 硬件架构设计

Rosetta交换机核心
- 端口配置:64个端口,每端口双向带宽200 Gb/s,采用PAM-4调制和56 Gb/s SerDes技术,物理层支持前向纠错(FEC)。
- 拓扑结构:基于Dragonfly拓扑(低直径、全连接组间链路),每组32个交换机,最多支持279,040个终端节点。
- 分块式交叉开关:32个Tile块通过行总线(Row Bus)和列交叉开关(Column Crossbar)实现两级仲裁,避免64端口集中仲裁的延迟。

图1:Rosetta交换机分块结构

2. 关键算法与功能

自适应路由
- 路径选择:根据队列深度评估4条最小/非最小路径的拥塞状态,动态选择最优路径。
- 拥塞信息传播:通过反向确认包(ACK)传递队列状态,平均每包仅增加4字节开销。

拥塞控制
- 全链路监控:硬件跟踪每对端点间的在途数据包,精准识别拥塞源。
- 快速反压:针对拥塞流实施端到端限速,避免传统ECN/QCN算法的长控制环路问题。

服务质量(QoS)
- 流量类别:支持基于DSCP标签的8级虚拟队列,可配置优先级、带宽保证和丢包策略。
- 资源隔离:例如MPI全局同步操作(如MPI_Barrier)可分配至高优先级低带宽类别。

3. 协议与软件栈优化

  • 以太网增强:最小帧长缩减至32字节,移除包间间隙(Inter-Packet Gap),支持链路级可靠性(LLR)。
  • 软件兼容性:通过libfabric提供标准API,MPI实现基于MPICH 3.1,支持RoCEv2协议。

4. 实验设计

测试平台
- 对比系统:Cray Aries网络(Crystal系统,698节点)与两台Slingshot系统(Malbec:484节点;Shandy:1024节点)。

测试负载
- 微基准测试:MPI点对点/集体操作、Ember模式(Halo3D、Sweep3D、Incast)。
- 实际应用:HPC(MILC、HPCG、LAMMPS、FFT)、AI(ResNet-proxy)、数据中心(Silo、Sphinx等)。

拥塞模拟
- 干扰模式:多对一(Endpoint Congestion)与全对全(Intermediate Congestion)。
- 分配策略:线性(Linear)、交错(Interleaved)、随机(Random)三种节点分配。

四、主要结果

1. 性能基准

  • 延迟与带宽:在静默网络中,最远节点(3跳)的延迟较同交换机节点仅增加40%(8B消息),16KiB以上消息差异<10%(图4)。
  • 聚合带宽:MPI_Alltoall在1,024节点上达到理论峰值的90%(图6)。

2. 拥塞控制有效性

  • 端点拥塞场景:Slingshot在90%节点为干扰源的极端条件下,应用性能最大仅下降1.3倍,而Aries同类场景下降达93倍(图9)。
  • 突发拥塞耐受:短时高负载(106消息/突发)仅使延迟增加21%(图12)。

3. 流量类别的隔离性

  • 带宽保障:当两个任务分别运行于80%和10%预留带宽的流量类别时,实际获得带宽与配置误差%(图14)。

五、结论与价值

科学价值
- 理论贡献:提出了一种硬件级拥塞控制模型,通过全链路监控实现亚微秒级反应速度,解决了传统算法(如ECN)在HPC场景下的适应性难题。
应用价值
- 超算部署:Slingshot已入选美国三大Exascale超算(Aurora、Frontier、El Capitan),支持混合负载(HPC+AI)的高效并发。
- 数据中心兼容性:通过以太网协议增强,实现与现有设备的无缝互通。

六、研究亮点

  1. 低直径拓扑:Dragonfly设计将超算网络直径压缩至3跳,显著降低全局通信延迟。
  2. 动态路由与拥塞控制:硬件实现的动态负载均衡机制使网络在90%负载下仍保持稳定。
  3. 协议创新:通过优化以太网帧结构,将最小传输单元缩减50%,提升小消息吞吐量。

七、其他重要内容

  • 可扩展性验证:实验覆盖512至1,024节点,证实拥塞控制算法在系统规模增长时的线性扩展性。
  • 跨领域适用性:在AI训练(ResNet-proxy)和OLTP数据库(Silo)中均表现优异,验证了其通用性。

此报告完整呈现了Slingshot互连网络的创新设计、实验验证与实际价值,为高性能计算与数据中心的网络架构研究提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com