以下是一篇基于上述文档生成的学术报告:
这篇文章的研究题目为“An Efficient Piecewise Linear Approximation of Non-Linear Operations for Transformer Inference”,作者为Haodong Lu、Qichang Mei和Kun Wang,隶属于复旦大学ASIC & System国家重点实验室,文章发表于2023 IEEE 31st Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM)。
Transformer模型近年来在自然语言处理和计算机视觉等领域取得了大量的突破性成果,性能达到了一个全新的水平。但随着Transformer规模的扩大,其计算复杂度也显著增加,尤其是Transformer中的多头注意力机制和前馈网络中涉及的大量非线性操作,使得在资源受限的设备上进行部署面临极大的挑战。在FPGA等硬件加速器中实现这些非线性操作困难重重,主要原因包括资源受限和对高精度计算的需求。
为解决这一问题,该研究提出了一种新的高效逼近框架NPLA(Non-linear Piecewise Linear Approximation),针对Transformer推理过程中出现的非线性操作进行优化,旨在大幅降低硬件资源消耗,从而提高Transformer在硬件加速器上的部署效率。
本研究的目标是开发一种通用且高效的非线性操作逼近框架,通过使用非均匀分段线性函数有效逼近Transformer中的非线性操作,并将其系数直接用于查找表(LUTs)的硬件实现中,从而实现显著降低资源占用的目标,最终提升FPGA等硬件加速器上Transformer模型的推理效率。
研究共包括三个主要步骤:
在此阶段,研究者首先按照预定义的逼近范围,将整个输入域均匀划分为若干指定大小的训练数据。然后,让目标非线性函数(如GELU、Softmax、LayerNorm等)通过读取输入数据生成相应的输出数据,构建出有监督的训练数据集。这些输入输出对将用于之后的逼近过程。
研究者在这一步设计了一种非均匀间隔的分段线性函数逼近方法。该方法通过设定逼近边界范围([BL, BR])和分段数量N等超参数,利用前向传播和反向传播优化算法逐步更新拟合器,直到拟合结果收敛。此过程中,还引入了一组间隔缩放因子,用于实现分段的非均匀间隔,以进一步提高逼近精度。
研究者将拟合得到的分段线性函数系数进行量化处理,并将其部署到目标硬件加速器上。在硬件实现过程中,仅需执行一次乘加操作,即可逼近复杂的非线性操作,大幅降低计算复杂度和硬件资源需求。
所有实验过程均基于已构建的监督学习数据集展开。研究者对不同类型的非线性函数进行了拟合实验,包括GELU、Softmax和LayerNorm三种常见函数。逼近结果通过平均绝对误差(MAE)和实际资源消耗等指标进行评估和对比。
在硬件部署阶段,研究者基于Xilinx VC709 FPGA平台与I-BERT方法进行了对比。实验中采用INT8数据格式对GELU进行逼近处理,并记录与I-BERT的资源消耗差异。此外,研究还在不同实验情境下测试了LUT和DSP(Digital Signal Processor)的资源节省效果。
实验结果证明,NPLA框架在硬件资源占用方面具有显著优势,并且在逼近精度上也表现优异:
这些结果证实了NPLA框架在降低硬件资源消耗的同时,能够保持甚至提高逼近精度,为Transformer模型在资源受限设备上的高效应用奠定了基础。
研究明确指出,通过NPLA框架的应用,可以高效逼近Transformer推理过程中涉及的多种非线性操作,从而显著降低硬件资源占用,并提高Transformer的实际部署能力。这一方法在理论和应用上均具有重要意义:
本文的研究不仅在硬件优化领域具有开创性意义,同时也为Transformer模型的实际应用开辟了新的方向。随着对NPLA框架更深层次的挖掘与发展,其将在更多资源受限场景下展现出广阔的应用前景。此外,相关研究的扩展还可以进一步改善计算模型的运行效率,为未来的深度学习硬件加速优化提供更多灵感。