分享自:

豆腐互连D的设计与评估

期刊:2018 IEEE International Conference on Cluster ComputingDOI:10.1109/CLUSTER.2018.00090

本文档属于类型a,即报告一项原创性研究的学术论文。以下是根据要求生成的学术报告:

位于日本川崎的Fujitsu Limited(富士通)公司的Yuichiro Ajima、Takahiro Kawashima等研究人员团队,以及同一公司AI Platform Business Unit的Shinya Hiramoto、Yoshiro Ikeda等合作者,于2018年在IEEE International Conference on Cluster Computing上发表了关于新型高性能互连技术”Tofu Interconnect D(豆腐互连D)”的研究论文。该研究面向计划于2021年投入运行的post-K超级计算机系统,提出了一种具有高密度节点和动态数据包切片特性的先进互连架构。

在学术背景方面,该研究属于高性能计算(High-Performance Computing, HPC)领域的系统互连技术范畴。随着超级计算机向百亿亿次(Exascale)计算时代迈进,传统的互连架构面临密度提升、延迟降低和容错性增强等多重挑战。Tofu互连家族作为富士通为高度可扩展HPC系统开发的专用互连技术,此前已成功应用于K计算机和PRIMEHPC FX100系统。本研究旨在解决三个关键问题:首先是随着芯片集成度提高导致的光链路比例下降(从Tofu2的66%降至25%),其次是传统传输技术造成的0.3μs额外延迟,再者是现有容错机制缺乏链路质量恢复能力。

研究的技术路线包含四个关键环节。首先是新型节点配置设计,采用了高带宽内存(High Bandwidth Memory, HBM)堆叠封装技术,将每节点信号通道数从Tofu2的40条减半至20条,同时通过增加网络接口(TNI)数量从4个提升到6个来维持吞吐量。其次是创新的机架级拓扑结构,采用(x,y,z,a,b,c)六维坐标系统,每个半机架容纳192个节点,通过优化电气与光链路分布将光链路比例控制在25%。第三是突破性的动态数据包切片技术(Dynamic Packet Slicing for Dual-Rail Transfer),在数据链路层实现数据包的分片或复制传输,通过独立的物理编码子层(Physical Coding Sublayer, PCS)处理各通道信号。最后是通信资源的扩展方案,将控制队列(Control Queue, CQ)数量提升至每TNI 12个,并使Tofu屏障(Barrier)功能在所有TNI上可用。

本研究的实验验证采用系统级逻辑仿真方法,基于Verilog RTL代码在Cadence硬件仿真器上构建多节点模型。延迟测试通过直接波形测量获得单向传输时间,吞吐量则通过延迟值推导得出。对照实验设置了三个版本(原始Tofu、Tofu2和Tofu D)的性能对比。关键测试包括:最近邻节点间8字节PUT操作的端到端延迟测试,结果显示Tofu D达到0.49μs,较Tofu2降低31%;多向同时传输测试显示每节点38.1Gb/s的注入率,达到Tofu2的83%;链路效率测试显示93%的高利用率;以及新增的节点内Tofu屏障延迟测试,揭示了多BCH分配时的串行化问题。

研究数据表明,该设计方案成功实现了三个突破:通过动态分片技术将数据包传输延迟从Tofu2的0.2μs降至与原始Tofu相当的0.1μs水平;在光链路比例大幅降低的情况下,仍保持了接近Tofu2的注入带宽;创新的双轨传输机制实现了故障链路的质量监测与自适应恢复,这是传统降级模式所不具备的。其中图7的延迟分解对比清楚地显示了各技术改进对总延迟的贡献,表IV则量化了不同架构下的吞吐量效率提升。

此项研究的科学价值体现在三个方面:其一为高密度封装条件下的互连设计方法论,通过通道数减半与速率提升(28Gbps)的平衡策略,实现了面积效率优化;其二提出的动态数据包切片技术为未来光电混合互连提供了可扩展的协议框架;其三扩展的Tofu屏障机制为NUMA架构下的同步操作提供了硬件加速方案。在实际应用层面,这些技术进步直接支撑了post-K超级计算机的设计目标,使其在继承K计算机应用生态的同时,满足Exascale级计算对通信子系统的新要求。

本研究的突出创新点包括:首创的动态数据包切片技术同时解决延迟和容错两个关键问题;将光链路比例降至25%仍维持性能的高密度封装方案;支持六维超立方体拓扑的灵活路由算法。特别是图4-6所示的分片/复制双模传输机制,通过在数据链路层添加PAT(分片模式标识)和STAT(链路质量状态)字段,实现了硬件级的自适应流量控制。

论文最后讨论了该技术的局限性和改进方向,包括:节点内远/近CMG(Core-Memory Group)访问带来的50ns延迟差异可能在未来更密集的集成中放大;Tofu屏障资源分配算法需要根据进程数动态优化;以及如何将双轨传输扩展到四通道配置以支持更高带宽。这些讨论为后续研究提供了明确的技术路线。

研究团队公开了post-K计算机的原型机架照片(图3)和CPU内存单元(CMU)设计(图2),显示两个处理器封装和三个电缆笼采用水冷方案。这种工程实现细节对于超大规模系统的热设计具有参考价值。此外,论文提供的

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com