高效资源利用的RoCEv2远程DMA协议实现及其应用

分享自：
高效资源利用的RoCEv2远程DMA协议实现及其应用

信息科学
工程学
人工智能
电气科学与工程
计算机科学
期刊:ACM Transactions on Reconfigurable Technology and Systems
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a，以下是根据文档内容生成的学术报告：
作者与机构
 本文的主要作者包括Niklas Schelten、Fritjof Steinert、Justin Knapheide、Anton Schulte和Benno Stabernack。他们分别来自德国的Fraunhofer Institute for Telecommunications - Heinrich Hertz Institute (HHI)和University of Potsdam。该研究于2022年12月发表在《ACM Transactions on Reconfigurable Technology and Systems》期刊上。
学术背景
 本研究的主要科学领域为高性能计算和网络硬件加速器，特别是基于FPGA（Field Programmable Gate Array，现场可编程门阵列）的网络附加加速器（NAA，Network-Attached Accelerator）。研究背景是数据中心中应用特定加速器的广泛使用，尤其是通过PCIe（Peripheral Component Interconnect Express，外设组件互连快速通道）接口与主机耦合的FPGA加速器。然而，PCIe接口在互操作性、可扩展性和功耗方面存在劣势。因此，本文提出了一种基于RoCEv2（RDMA over Converged Ethernet v2，融合以太网远程直接内存访问协议）的网络附加FPGA加速器架构，旨在实现高速、低延迟的数据传输，并降低资源消耗。
研究的主要目标是开发一种资源高效的RoCEv2协议栈，并将其集成到硬件框架中，以支持网络附加FPGA加速器。通过这种方式，研究团队希望为数据中心提供一种更灵活、更节能的加速器集成方案。
研究流程
 研究流程主要包括以下几个步骤：
RoCEv2协议栈的开发与集成
研究团队开发了一种独立于供应商的100 Gb/s RoCEv2协议栈，并将其集成到一个硬件框架中。该框架为FPGA提供了基础设施，支持多种加速器的运行时替换和并行运行。
该框架的设计要求包括：支持运行时加速器替换、提供抽象化的基本功能、使用标准化的网络连接、实现高数据吞吐量和低延迟、支持远程直接内存访问（RDMA）、通过网络管理FPGA以及自动获取IP地址。
为了实现高吞吐量，研究团队选择了256位和512位的数据总线宽度，并设计了高效的ICRC（Invariant Cyclic Redundancy Check，不变循环冗余校验）计算方法。
硬件框架的设计
硬件框架包括管理模块、外部存储器接口和网络架构。管理模块通过AXI Lite总线实现，外部存储器通过AXI总线连接，网络架构则包括UDP/IP协议栈和RoCEv2协议栈。
网络架构分为UDP/IP和RoCEv2两个主要组件。UDP/IP协议栈负责处理用户数据报协议（UDP）和互联网协议（IP），而RoCEv2协议栈则负责实现RDMA功能。
性能评估
研究团队通过实验评估了RoCEv2协议栈的吞吐量和延迟。实验结果表明，该协议栈在40 Gb/s硬件上实现了37.034 Gb/s的吞吐量，延迟低于4微秒。
此外，研究团队还测试了100 Gb/s的吞吐量能力，结果表明该协议栈在100 Gb/s硬件上能够达到98 Gb/s的吞吐量。
ML加速器的应用案例
为了验证NAA架构的能效和性能，研究团队构建了一个基于MobilenetV2的图像分类演示系统。该系统包括8个NAA、一个40 Gb/s交换机和一台服务器。
实验结果表明，NAA架构在图像分类任务中表现出色，总吞吐量达到10340帧/秒，能效为58.2毫焦耳/帧，优于传统的PCIe耦合FPGA加速器和GPU加速器。
主要结果
 1. RoCEv2协议栈的性能
 - 在40 Gb/s硬件上，RoCEv2协议栈的吞吐量达到37.034 Gb/s，延迟低于4微秒。在100 Gb/s硬件上，吞吐量达到98 Gb/s。 - 资源利用率方面，该协议栈在中端FPGA上仅占用约10%的资源。
NAA架构的能效
在MobilenetV2图像分类任务中，NAA架构的总吞吐量为10340帧/秒，能效为58.2毫焦耳/帧，显著优于PCIe耦合FPGA加速器和GPU加速器。
硬件框架的灵活性
硬件框架支持多种加速器的运行时替换和并行运行，为数据中心提供了高度灵活的加速器集成方案。
结论
 本研究提出了一种资源高效的RoCEv2协议栈，并将其集成到网络附加FPGA加速器架构中。实验结果表明，该架构在吞吐量、延迟和能效方面均表现出色，特别是在MobilenetV2图像分类任务中，NAA架构的能效显著优于传统加速器。该研究为数据中心提供了一种更灵活、更节能的加速器集成方案，具有重要的科学价值和应用价值。
研究亮点
 1. 高性能RoCEv2协议栈
 - 研究团队开发了一种独立于供应商的100 Gb/s RoCEv2协议栈，实现了高吞吐量和低延迟。
能效优化
NAA架构在图像分类任务中的能效显著优于传统加速器，为数据中心提供了更节能的解决方案。
灵活的硬件框架
硬件框架支持多种加速器的运行时替换和并行运行，为数据中心提供了高度灵活的加速器集成方案。
其他有价值的内容
 研究团队还提出了一种自研的Pre-RDMA协议，用于在RDMA传输之前交换必要的协议参数。该协议通过Infiniband定义的包实现，进一步提高了RoCEv2协议栈的灵活性和互操作性。
以上是本文档的详细学术报告，涵盖了研究背景、流程、结果、结论和亮点等内容。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问