分享自:

面向YOLO神经网络的数据流架构优化研究

期刊:计 算 机 学 报DOI:10.11897/sp.j.1016.2025.00082

类型a

本研究的主要作者包括穆宇栋、李文明和范志华(通信作者),他们均隶属于中国科学院计算技术研究所的处理器芯片全国重点实验室,同时与中国科学院大学计算机科学与技术学院有密切合作。这项研究发表在《计算机学报》(Chinese Journal of Computers)第48卷第1期,出版时间为2025年1月。

本研究的学术背景聚焦于计算机视觉领域中的目标检测算法,特别是YOLO(You Only Look Once)算法。YOLO因其速度快、精度高、结构简单以及性能稳定等优点,在多种实时性要求较高的应用场景中得到了广泛应用,例如自动驾驶和车辆检测。然而,传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等问题。相较而言,数据流架构的执行模式与神经网络算法匹配度高,更能充分挖掘其中的数据并行性。因此,为了优化YOLO神经网络在数据流架构上的运行效率,本研究设计了面向YOLO神经网络的数据流加速器DFU-Y(Dataflow Unit for YOLO)。

本研究的详细工作流程包括以下几个主要步骤:

第一步:分析YOLO神经网络的特点和挑战
研究团队首先对YOLO神经网络进行了深入分析,发现其核心特征在于网络层数少、算子种类相对单一、结构较为稳定。此外,YOLO神经网络中卷积核大小为1的卷积层重复次数最多,运行时长占比极大。这一特点导致传统数据流架构在处理这些小卷积核运算时存在以下问题:
1. 数据复用率过低,计算部件利用率显著降低;
2. 算子间高度耦合的结构特性未被充分利用,导致大量数据重复读取;
3. 数据存取与执行高度耦合、串序执行,导致数据存取延迟过高。

第二步:提出DFU-Y架构的设计方案
为解决上述问题,研究团队基于现有的数据流架构DFU(Dataflow Architecture)设计了DFU-Y架构。该架构的核心改进包括:
1. 小卷积核卷积数据流图映射算法:通过分析卷积嵌套循环的执行模式,研究团队提出了更有利于执行单元内部数据复用的数据流图映射算法,从而整体提升卷积运行效率;
2. 算子融合调度机制:在数据流图层次上实现具有数据依赖性的算子融合调度,以减少数据存取次数并提升神经网络运行效率;
3. 双缓存解耦合机制:通过引入双缓存设计,将数据存取与执行解耦合,从而并行执行数据存取与运算,掩盖程序间的数据传输延迟,提高计算部件利用率。

第三步:实验验证与性能评估
研究团队在多个YOLO模型上对DFU-Y架构进行了实验验证,对比对象包括传统数据流架构DFU、GPU(NVIDIA Xavier NX)以及专用YOLO加速器Arrria-YOLO。实验内容包括性能测试、能效测试以及端到端推理测试。

实验结果表明,DFU-Y架构在多个方面表现出显著优势:
1. 性能提升:相比DFU和GPU,DFU-Y分别实现了2.527倍和1.334倍的性能提升;
2. 能效提升:相比DFU和GPU,DFU-Y分别实现了2.658倍和3.464倍的能效提升;
3. 通用性与专用性平衡:相比专用YOLO加速器Arrria-YOLO,DFU-Y在保持良好通用性的同时,达到了其性能的72.97%和能效的87.41%;
4. 端到端推理效率:在不同YOLO模型上,DFU-Y实现了平均7.11 FPS/W的能效表现。

第四步:结果分析与讨论
实验结果支持了研究团队的假设,即通过针对YOLO神经网络特点优化数据流架构,可以显著提升其运行效率。具体来说:
1. 小卷积核卷积数据流图映射算法有效提高了执行单元内部的数据复用率,减少了数据传输开销;
2. 算子融合调度机制充分利用了YOLO神经网络中算子间的结构耦合特性,减少了重复数据存取;
3. 双缓存解耦合机制成功掩盖了数据传输延迟,提高了计算部件利用率。

结论与意义
本研究设计的DFU-Y架构在提升YOLO神经网络运行效率方面取得了重要进展。其科学价值体现在以下几点:
1. 提出了针对小卷积核运算的数据流图映射算法,填补了现有数据流架构在处理此类运算时的不足;
2. 引入了算子融合调度机制,为神经网络加速器设计提供了新思路;
3. 通过双缓存解耦合机制,解决了数据存取与执行串序执行的问题,为硬件架构优化提供了参考。

在应用价值方面,DFU-Y架构不仅适用于YOLO神经网络,还具有较强的通用性,可推广至其他卷积神经网络(CNN)的加速任务。此外,其高效的能效表现使其特别适合边缘设备等资源受限场景的应用。

研究亮点
1. 创新性算法:小卷积核卷积数据流图映射算法和算子融合调度机制是本研究的重要创新点;
2. 架构优化:双缓存解耦合机制显著提升了数据存取效率,为硬件架构设计提供了新方法;
3. 性能与能效平衡:DFU-Y在性能和能效之间取得了良好的平衡,为神经网络加速器设计提供了重要参考。

其他有价值的内容
研究团队还对YOLO神经网络中的算子耦合结构进行了深入分析,揭示了卷积运算与激活函数之间的高度耦合关系,并提出通过优化两者运行效率来减少整体运行时长的方法。这一发现为未来神经网络加速器的设计提供了新的研究方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com