本文档属于类型a,以下是根据文档内容生成的学术报告:
作者与机构
本文的主要作者包括Niklas Schelten、Fritjof Steinert、Justin Knapheide、Anton Schulte和Benno Stabernack。他们分别来自德国的Fraunhofer Institute for Telecommunications - Heinrich Hertz Institute (HHI)和University of Potsdam。该研究于2022年12月发表在《ACM Transactions on Reconfigurable Technology and Systems》期刊上。
学术背景
本研究的主要科学领域为高性能计算和网络硬件加速器,特别是基于FPGA(Field Programmable Gate Array,现场可编程门阵列)的网络附加加速器(NAA,Network-Attached Accelerator)。研究背景是数据中心中应用特定加速器的广泛使用,尤其是通过PCIe(Peripheral Component Interconnect Express,外设组件互连快速通道)接口与主机耦合的FPGA加速器。然而,PCIe接口在互操作性、可扩展性和功耗方面存在劣势。因此,本文提出了一种基于RoCEv2(RDMA over Converged Ethernet v2,融合以太网远程直接内存访问协议)的网络附加FPGA加速器架构,旨在实现高速、低延迟的数据传输,并降低资源消耗。
研究的主要目标是开发一种资源高效的RoCEv2协议栈,并将其集成到硬件框架中,以支持网络附加FPGA加速器。通过这种方式,研究团队希望为数据中心提供一种更灵活、更节能的加速器集成方案。
研究流程
研究流程主要包括以下几个步骤:
RoCEv2协议栈的开发与集成
硬件框架的设计
性能评估
ML加速器的应用案例
主要结果
1. RoCEv2协议栈的性能
- 在40 Gb/s硬件上,RoCEv2协议栈的吞吐量达到37.034 Gb/s,延迟低于4微秒。在100 Gb/s硬件上,吞吐量达到98 Gb/s。 - 资源利用率方面,该协议栈在中端FPGA上仅占用约10%的资源。
NAA架构的能效
硬件框架的灵活性
结论
本研究提出了一种资源高效的RoCEv2协议栈,并将其集成到网络附加FPGA加速器架构中。实验结果表明,该架构在吞吐量、延迟和能效方面均表现出色,特别是在MobilenetV2图像分类任务中,NAA架构的能效显著优于传统加速器。该研究为数据中心提供了一种更灵活、更节能的加速器集成方案,具有重要的科学价值和应用价值。
研究亮点
1. 高性能RoCEv2协议栈
- 研究团队开发了一种独立于供应商的100 Gb/s RoCEv2协议栈,实现了高吞吐量和低延迟。
能效优化
灵活的硬件框架
其他有价值的内容
研究团队还提出了一种自研的Pre-RDMA协议,用于在RDMA传输之前交换必要的协议参数。该协议通过Infiniband定义的包实现,进一步提高了RoCEv2协议栈的灵活性和互操作性。
以上是本文档的详细学术报告,涵盖了研究背景、流程、结果、结论和亮点等内容。