基于CORDIC的高效激活函数实现方法，用于FPGA上的RNN加速

2025-02-05 Wed
RNN高效激活函数实现：CORDIC算法与FPGA硬件加速的突破背景与研究意义近年来，随着深度学习技术的迅猛发展，循环神经网络（Recurrent Neural Networks, RNNs）尤其是长短时记忆网络（Long Short-Term Memory, LSTM），在时间序列任务中展现出了强大的能力，例如在自然语言处理（Natural Language Processing, NLP）、语音识别和医学诊断等领域取得了广泛应用。然而，与卷积神经网络（Convolutional Neural Networks, CNNs）相比，RNN模型因其复杂性和大量非线性激活函数需求，导致计算代价显著增加。特别是在资源有限的边缘设备（Edge Devices）中部署RNN模型时，激活函数的实现成为了限制其整体性能的瓶颈。
众所周知，激活函数（Activation Functions）是深度神经网络的关键组件之一，其作用是为模型引入非线性特性，从而增强模型的表达力。然而，大量使用如tanh、sigmoid和arctan等激活函数，会显著增加计算开销和延迟。传统实现方法，如多项式拟合（Polynomial Fitting）、查找表（Lookup Table, LUT）及分段线性逼近（Piecewise Linear Approximation），尽管部分降低了复杂性，但难以同时在精度、资源消耗和延迟之间找到最佳平衡。
正因如此，该研究的作者从硬件加速的角度出发，结合坐标旋转数字计算机（Coordinate Rotation Digital Computer, CORDIC）算法的优势，提出了一种高效且统一的硬件架构，以优化RNN模型中的激活函数计算，从而有效提升其在边缘设备上的部署性能。
研究来源及发表信息本文以“Efficient CORDIC-Based Activation Functions for RNN Acceleration on FPGAs”为题，由Wan Shen、Junye Jiang、Minghan Li及Shuanglong Liu共同完成，作者隶属于中国湖南师范大学物理与电子学院及低维量子结构与量子控制教育部重点实验室。论文发表于2025年1月的《IEEE Transactions on Artificial Intelligence》第6卷第1期。
研究流程及方法论文主要针对基于FPGA（Field Programmable Gate Arrays）的低资源硬件设计，提出了一种改进的CORDIC算法，并开发了统一的硬件架构来支持多个激活函数的实现。以下为研究的具体流程：
1. 理论基础与问题分析研究首先对RNN的工作机制、激活函数的实现现状以及CORDIC算法的优缺点进行了详细分析。在传统RNN应用中，tanh和sigmoid为常用的激活函数，复杂度高，耗时大；而CORDIC算法因其仅需移位和加法操作，能高效计算各种非线性函数，其在硬件资源受限的场景中表现出了潜力。然而，现有的CORDIC实现面临收敛速度慢、资源利用率低及难以支持多种激活函数统一实现的问题。
2. 提出改进的CORDIC算法研究通过引入贪婪算法（Greedy Algorithm），改进了传统CORDIC的迭代方法。主要改进包括：
- 使用贪婪角度选择策略，在每次迭代中选择最优的旋转角度，从而减少迭代次数。
- 为实现tanh、sigmoid及arctan函数，设计了统一的角度映射与选择机制，使得算法能够同时支持圆形坐标（Circular Coordinate）和双曲坐标（Hyperbolic Coordinate）的操作。
- 解决了传统CORDIC收敛范围受限的问题，通过角度映射扩展了激活函数输入的有效范围。
3. 提出统一的硬件架构设计一种管道化的硬件架构被开发，其主要模块包括：
1. 预处理模块：
- 针对输入数据进行角度映射，将输入范围统一至[0, 1)或[0, π/4]，以适应CORDIC的收敛范围。
- 内部包含补码转换（Negative to Positive Conversion）及简单加减法运算。
迭代模块：
由角度选择模块和旋转函数模块组成。
角度选择模块利用优先编码器（Priority Encoder）动态计算最优旋转角度的索引，从而显著降低计算延迟。
后处理模块：
使用CORDIC输出结果生成tanh和sigmoid函数值，通过简单的加法、移位及除法组合实现。
arctan函数的求解通过逻辑门及多路选择器完成。
这种硬件架构在FPGA平台上的实现支持多种激活函数的灵活配置，大幅减少了需要独立实现功能模块设计的硬件开销。
研究结果分析激活函数的精度通过对tanh、sigmoid和arctan激活函数的数值逼近与传统CORDIC算法的对比，研究结果表明改进的贪婪角度选择策略显著提升了迭代收敛速度。在四次迭代的情况下，本文的方法能够达到与传统CORDIC方法八次迭代相当的逼近精度，相对误差（Relative Error）分别可控制在0.0019、0.046及0.0224内。
RNN精度表现对三种典型RNN模型（LSTM、Bidirectional LSTM和GRU）进行实验，使用本文的CORDIC激活函数设计对模型进行推断，其精度损失始终小于2%，显著优于传统方法所需更高迭代次数才能达到的精度水平。
硬件资源与速度在资源消耗方面，本文提出的架构利用了流程复用技术，与传统CORDIC方法在逻辑资源利用率接近的情况下，将激活函数的计算延迟减少至50%，并实现了约2倍的全模型推断加速。
研究结论与意义本文提出的CORDIC激活函数实现方案不仅能够保持RNN模型的推断精度，同时显著提高了推断速度，减少了硬件资源开销。通过提供统一且可配置的硬件架构，该方案解决了传统方法难以支持多种激活函数的问题，尤其适用于资源有限且实时性要求较高的边缘设备场景。
研究亮点创新性改进：首次将贪婪算法与CORDIC方法结合用于激活函数，显著提升了逼近精度与收敛速度。
统一化设计：通过硬件架构的一体化与多功能性，实现了tanh、sigmoid及arctan函数的高效算力支持。
硬件适用性：在FPGA实现中，显示出比传统查找表和多项式拟合方法更高的资源利用率与计算效率。
潜在应用价值本文的技术突破不仅提高了RNN在实时场景中的应用可能性，还为边缘计算平台的深度学习模型的实际部署提供了新的解决思路。未来，研究团队计划在更高级别的硬件平台（如AMD Versal SoC）上实现该设计，以期增强其在硬件安全和计算性能上的优势。