这篇文档属于类型a,即报告一项原创性研究的学术论文。以下是针对该研究的综合性学术报告:
Slingshot互连网络的深度分析:面向超大规模计算系统的创新架构
本研究由Daniele De Sensi、Salvatore Di Girolamo(苏黎世联邦理工学院计算机科学系)、Kim H. McMahon、Duncan Roweth(惠普企业HPE)以及Torsten Hoefler(苏黎世联邦理工学院)合作完成,发表于2020年IEEE国际高性能计算、网络、存储与分析会议(SC20)。
研究领域与动机
随着超算系统规模逼近百亿亿次级(Exascale),互连网络(Interconnect)的性能成为制约应用效率的关键瓶颈。传统网络在高并发和混合负载(HPC、AI、数据中心)场景下面临两大挑战:
1. 拥塞问题:通信密集型应用(如HPCG)的性能仅为计算密集型应用(如HPL)的1/50,主因是网络拥塞导致的尾部延迟(Tail Latency)激增。
2. 协议兼容性:数据中心广泛采用以太网(Ethernet),但传统以太网协议无法满足HPC的低延迟需求。
研究目标
为解决上述问题,Cray(现为HPE子公司)设计了Slingshot互连网络,其主要创新目标包括:
- 通过高基数交换机(High-Radix Switches)构建三层跳数(3-hop)的低直径网络;
- 实现硬件级自适应路由(Adaptive Routing)和拥塞控制(Congestion Control);
- 兼容标准以太网协议的同时优化HPC性能。
Rosetta交换机核心
- 端口配置:64个端口,每端口双向带宽200 Gb/s,采用PAM-4调制和56 Gb/s SerDes技术,物理层支持前向纠错(FEC)。
- 拓扑结构:基于Dragonfly拓扑(低直径、全连接组间链路),每组32个交换机,最多支持279,040个终端节点。
- 分块式交叉开关:32个Tile块通过行总线(Row Bus)和列交叉开关(Column Crossbar)实现两级仲裁,避免64端口集中仲裁的延迟。
自适应路由
- 路径选择:根据队列深度评估4条最小/非最小路径的拥塞状态,动态选择最优路径。
- 拥塞信息传播:通过反向确认包(ACK)传递队列状态,平均每包仅增加4字节开销。
拥塞控制
- 全链路监控:硬件跟踪每对端点间的在途数据包,精准识别拥塞源。
- 快速反压:针对拥塞流实施端到端限速,避免传统ECN/QCN算法的长控制环路问题。
服务质量(QoS)
- 流量类别:支持基于DSCP标签的8级虚拟队列,可配置优先级、带宽保证和丢包策略。
- 资源隔离:例如MPI全局同步操作(如MPI_Barrier)可分配至高优先级低带宽类别。
测试平台
- 对比系统:Cray Aries网络(Crystal系统,698节点)与两台Slingshot系统(Malbec:484节点;Shandy:1024节点)。
测试负载
- 微基准测试:MPI点对点/集体操作、Ember模式(Halo3D、Sweep3D、Incast)。
- 实际应用:HPC(MILC、HPCG、LAMMPS、FFT)、AI(ResNet-proxy)、数据中心(Silo、Sphinx等)。
拥塞模拟
- 干扰模式:多对一(Endpoint Congestion)与全对全(Intermediate Congestion)。
- 分配策略:线性(Linear)、交错(Interleaved)、随机(Random)三种节点分配。
科学价值
- 理论贡献:提出了一种硬件级拥塞控制模型,通过全链路监控实现亚微秒级反应速度,解决了传统算法(如ECN)在HPC场景下的适应性难题。
应用价值
- 超算部署:Slingshot已入选美国三大Exascale超算(Aurora、Frontier、El Capitan),支持混合负载(HPC+AI)的高效并发。
- 数据中心兼容性:通过以太网协议增强,实现与现有设备的无缝互通。
此报告完整呈现了Slingshot互连网络的创新设计、实验验证与实际价值,为高性能计算与数据中心的网络架构研究提供了重要参考。