面向智能航空电子系统的卷积神经网络软硬件协同加速技术研究报告
本文旨在向研究人员介绍一项发表于《航空兵器》2021年第3期,题为《卷积神经网络的软硬件协同加速技术》的研究工作。该研究由来自航空工业西安航空计算技术研究所及机载、弹载计算机航空科技重点实验室的李欣瑶*、刘飞阳、文鹏程、李鹏等人完成。
一、 研究背景与目标
本研究的核心科学领域聚焦于嵌入式人工智能,具体为深度学习模型,尤其是卷积神经网络在资源受限环境下的部署与加速技术。随着人工智能在智慧医疗、自动驾驶等领域的成功应用,航空领域也呈现出向智能化发展的趋势,例如有人机/无人机在空战中实现目标识别、辅助决策、自主规划等复杂任务。然而,将这些强大的神经网络模型部署到机载嵌入式环境中面临严峻挑战:一方面,神经网络通常参数量庞大(可达数百兆),与嵌入式平台有限的存储资源(如片上内存)存在直接冲突;另一方面,神经网络推理涉及大量浮点乘加等复杂运算,对计算资源需求极高,而嵌入式处理器(如ARM核)或专用硬件(如FPGA中的DSP单元)的计算能力往往有限。此外,机载环境对功耗和实时性有严格约束。
因此,本研究的目标是设计并实现一套面向CNN的软硬件协同加速方法,旨在解决“大模型与小存储”以及“复杂运算与有限算力”这两大核心矛盾,最终将CNN高效部署于以FPGA为代表的嵌入式硬件平台,以满足智能化航空电子系统对实时、低功耗智能计算的需求。
二、 详细研究流程与方法
本研究遵循了从问题分析、方法设计、具体实现到实验验证的完整流程,主要包含以下几个关键步骤:
问题定义与方案设计: 研究首先分析了在FPGA上加速CNN推理面临的两大瓶颈:计算量(源于浮点运算)和数据传输(源于中间层数据的反复存取)。针对这两个瓶颈,提出了软硬件协同的总体方案。软件层面,通过模型结构优化和参数量化来压缩模型规模,减少数据量和访存需求。硬件层面,为计算最密集的卷积和池化运算设计专用加速算子(加速器IP核),采用并行和流水线技术提升计算效率。
数据集构建与模型选择: 为了在航空应用背景下验证方法有效性,研究团队自主构建了一个“空对地小目标数据集”。该数据集包含雷达、舰船、坦克、汽车、建筑五类目标,从30°和90°两种视角,以及彩色、红外、黑白三种视图场景采集影像,最终生成5000余张1024×768像素的高分辨率图片,并按PASCAL VOC标准进行标注。考虑到数据集以小目标(占图比例0.5%以内)为主且分布集中,以及嵌入式环境对实时性的要求,研究选用了在速度和精度上表现均衡的YOLOv3及其轻量版YOLOv3-tiny作为目标检测网络进行加速实验。
软件优化技术实施:
硬件加速技术设计与实现:
测试验证与性能评估: 将优化和加速后的YOLOv3和YOLOv3-tiny网络部署到Xilinx ZCU102评估板上进行验证。评估指标包括功耗、平均精度均值(mAP)和推理速度(帧每秒,FPS)。作为对比,也在CPU(Intel Xeon E5-2620)和GPU(NVIDIA Quadro K6000)平台上使用量化后的相同权重进行了测试。
三、 主要研究结果
本研究在每个关键步骤都取得了具体、可量化的结果:
软件优化结果: 模型量化技术效果显著。如表1所示,YOLOv3参数量压缩至原来的约1/4,mAP仅从63.9%降至63.2%;YOLOv3-tiny参数量也压缩至约1/4,mAP从58.4%降至57.2%。这证明了所用量化算法在大幅压缩模型、缓解存储压力的同时,能很好地保持模型在特定数据集上的识别精度,为嵌入式部署扫清了第一道障碍。
硬件加速结果: 自主设计的Verilog HDL加速算子被成功实现并集成。仿真波形(图4,图5)验证了卷积和池化算子逻辑功能的正确性,其时序行为符合设计预期。资源占用报告(表2,表3)证明这两个算子以极低的硬件资源消耗(尤其是宝贵的DSP资源)实现了高度并行化的计算,解决了计算资源紧缺的核心矛盾。
系统级性能结果: 软硬件协同加速的整体效果在最终对比实验中得到全面体现(表4)。
四、 研究结论与价值
本研究成功设计并实现了一套完整的、面向卷积神经网络的软硬件协同加速技术。结论表明:通过软件层面的模型结构优化(BN融合)和参数量化,可以有效压缩模型规模3/4,解决存储瓶颈;通过硬件层面基于Verilog HDL设计的高并行度卷积/池化加速算子,能够以极低的资源开销实现数十倍的计算加速。二者协同,最终使得像YOLOv3这样相对复杂的CNN模型能够以较低的功耗和满足实时性需求的速度,部署在资源受限的嵌入式FPGA平台上。
该研究的价值体现在: * 科学价值: 为深度学习模型在边缘计算/嵌入式设备的部署提供了一个具体可行的软硬件协同设计范例,详细展示了从算法优化、硬件架构设计到系统集成的全链路方法,对相关领域研究具有参考意义。 * 应用价值: 直接面向智能化航空电子系统的国家重大需求,研究成果有助于提升有人机/无人机的智能化作战水平,如自主目标识别、实时态势感知等。所提出的优化方法和加速算子具备一定的通用性,可扩展应用于其他CNN网络模型。 * 技术价值: 证明了在特定约束(功耗、实时性、自主可控)下,FPGA是比GPU更适宜的AI推理加速平台选择。采用的量化方法和硬件设计思路对推动国产化、自主可控的机载智能计算装备发展具有积极意义。
五、 研究亮点与特色
六、 其他有价值内容
研究在最后展望了未来工作方向,包括构建更丰富的加速算子库以支持更复杂的网络模型,以及设计数据重用算法来进一步提高存储带宽利用率和整体性能。这些方向为进一步提升嵌入式AI系统的能力和效率指明了路径。文中所引用的参考文献也为读者深入了解模型轻量化、硬件加速架构等前沿领域提供了有价值的线索。