分享自:

高效资源利用的RoCEv2远程DMA协议实现及其应用

期刊:ACM Transactions on Reconfigurable Technology and Systems

本文档属于类型a,以下是根据文档内容生成的学术报告:


作者与机构
本文的主要作者包括Niklas Schelten、Fritjof Steinert、Justin Knapheide、Anton Schulte和Benno Stabernack。他们分别来自德国的Fraunhofer Institute for Telecommunications - Heinrich Hertz Institute (HHI)和University of Potsdam。该研究于2022年12月发表在《ACM Transactions on Reconfigurable Technology and Systems》期刊上。

学术背景
本研究的主要科学领域为高性能计算和网络硬件加速器,特别是基于FPGA(Field Programmable Gate Array,现场可编程门阵列)的网络附加加速器(NAA,Network-Attached Accelerator)。研究背景是数据中心中应用特定加速器的广泛使用,尤其是通过PCIe(Peripheral Component Interconnect Express,外设组件互连快速通道)接口与主机耦合的FPGA加速器。然而,PCIe接口在互操作性、可扩展性和功耗方面存在劣势。因此,本文提出了一种基于RoCEv2(RDMA over Converged Ethernet v2,融合以太网远程直接内存访问协议)的网络附加FPGA加速器架构,旨在实现高速、低延迟的数据传输,并降低资源消耗。

研究的主要目标是开发一种资源高效的RoCEv2协议栈,并将其集成到硬件框架中,以支持网络附加FPGA加速器。通过这种方式,研究团队希望为数据中心提供一种更灵活、更节能的加速器集成方案。

研究流程
研究流程主要包括以下几个步骤:

  1. RoCEv2协议栈的开发与集成

    • 研究团队开发了一种独立于供应商的100 Gb/s RoCEv2协议栈,并将其集成到一个硬件框架中。该框架为FPGA提供了基础设施,支持多种加速器的运行时替换和并行运行。
    • 该框架的设计要求包括:支持运行时加速器替换、提供抽象化的基本功能、使用标准化的网络连接、实现高数据吞吐量和低延迟、支持远程直接内存访问(RDMA)、通过网络管理FPGA以及自动获取IP地址。
    • 为了实现高吞吐量,研究团队选择了256位和512位的数据总线宽度,并设计了高效的ICRC(Invariant Cyclic Redundancy Check,不变循环冗余校验)计算方法。
  2. 硬件框架的设计

    • 硬件框架包括管理模块、外部存储器接口和网络架构。管理模块通过AXI Lite总线实现,外部存储器通过AXI总线连接,网络架构则包括UDP/IP协议栈和RoCEv2协议栈。
    • 网络架构分为UDP/IP和RoCEv2两个主要组件。UDP/IP协议栈负责处理用户数据报协议(UDP)和互联网协议(IP),而RoCEv2协议栈则负责实现RDMA功能。
  3. 性能评估

    • 研究团队通过实验评估了RoCEv2协议栈的吞吐量和延迟。实验结果表明,该协议栈在40 Gb/s硬件上实现了37.034 Gb/s的吞吐量,延迟低于4微秒。
    • 此外,研究团队还测试了100 Gb/s的吞吐量能力,结果表明该协议栈在100 Gb/s硬件上能够达到98 Gb/s的吞吐量。
  4. ML加速器的应用案例

    • 为了验证NAA架构的能效和性能,研究团队构建了一个基于MobilenetV2的图像分类演示系统。该系统包括8个NAA、一个40 Gb/s交换机和一台服务器。
    • 实验结果表明,NAA架构在图像分类任务中表现出色,总吞吐量达到10340帧/秒,能效为58.2毫焦耳/帧,优于传统的PCIe耦合FPGA加速器和GPU加速器。

主要结果
1. RoCEv2协议栈的性能
- 在40 Gb/s硬件上,RoCEv2协议栈的吞吐量达到37.034 Gb/s,延迟低于4微秒。在100 Gb/s硬件上,吞吐量达到98 Gb/s。 - 资源利用率方面,该协议栈在中端FPGA上仅占用约10%的资源。

  1. NAA架构的能效

    • 在MobilenetV2图像分类任务中,NAA架构的总吞吐量为10340帧/秒,能效为58.2毫焦耳/帧,显著优于PCIe耦合FPGA加速器和GPU加速器。
  2. 硬件框架的灵活性

    • 硬件框架支持多种加速器的运行时替换和并行运行,为数据中心提供了高度灵活的加速器集成方案。

结论
本研究提出了一种资源高效的RoCEv2协议栈,并将其集成到网络附加FPGA加速器架构中。实验结果表明,该架构在吞吐量、延迟和能效方面均表现出色,特别是在MobilenetV2图像分类任务中,NAA架构的能效显著优于传统加速器。该研究为数据中心提供了一种更灵活、更节能的加速器集成方案,具有重要的科学价值和应用价值。

研究亮点
1. 高性能RoCEv2协议栈
- 研究团队开发了一种独立于供应商的100 Gb/s RoCEv2协议栈,实现了高吞吐量和低延迟。

  1. 能效优化

    • NAA架构在图像分类任务中的能效显著优于传统加速器,为数据中心提供了更节能的解决方案。
  2. 灵活的硬件框架

    • 硬件框架支持多种加速器的运行时替换和并行运行,为数据中心提供了高度灵活的加速器集成方案。

其他有价值的内容
研究团队还提出了一种自研的Pre-RDMA协议,用于在RDMA传输之前交换必要的协议参数。该协议通过Infiniband定义的包实现,进一步提高了RoCEv2协议栈的灵活性和互操作性。


以上是本文档的详细学术报告,涵盖了研究背景、流程、结果、结论和亮点等内容。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com