轻量化中子辐射环境下资源受限设备执行DNN推理模型的缓解技术

分享自：
轻量化中子辐射环境下资源受限设备执行DNN推理模型的缓解技术

物理学
核物理
期刊:IEEE Transactions on Nuclear ScienceDOI:10.1109/TNS.2023.3262448
【点击此处】阅读全文、收藏及针对性提问
研究报告（基于类型a）作者与研究发表信息本研究的主要作者包括：Jonas Gava（学生会员，IEEE）、Alex Hanneman（学生会员，IEEE）、Geancarlo Abich（学生会员，IEEE）、Rafael Garibotti（高级会员，IEEE）、Sergio Cuenca-Asensi、Rodrigo Possamai Bastos（会员，IEEE）、Ricardo Reis（终身高级会员，IEEE）以及Luciano Ost（高级会员，IEEE）。研究机构分别涵盖了巴西、英国、西班牙和法国的学术机构。
 该研究发表在《IEEE Transactions on Nuclear Science》期刊，文章的发表时间为2022年10月。
研究背景深度神经网络（Deep Neural Networks，DNN）因其在对象识别、轨迹预测等复杂任务中的卓越性能，正广泛部署于嵌入式设备中，尤其是边缘计算设备（edge-computing devices），如传感器和无人机。这些设备通常受限于低内存、低功耗和低性能微处理器。但在高辐射环境中，这些DNN模型易受中子辐射引发的软错误（soft errors）影响，这对边缘设备的安全性和可靠性提出了严峻挑战。传统的复制冗余技术和硬件加固方法虽然有效，但会增加系统开销，难以适用于资源有限的设备。
为应对这一矛盾，本研究团队提出了一种轻量级的软件加固技术，称为寄存器分配技术（Register Allocation Technique，简称RAT）。研究目的在于评估RAT技术在边缘计算设备上的有效性，特别是在两个商业化的ARM微处理器（Cortex-M4和Cortex-M7）上运行的卷积神经网络（Convolutional Neural Network，CNN）下的表现。
研究方法与流程1. 技术手段与测试对象本研究采用了RAT技术，RAT是一种不涉及代码冗余的编译器级加固方法。其通过限制用于执行特定功能的可用寄存器数量，减少暴露的寄存器区域，从而降低发生软错误的概率。RAT基于LLVM编译器的后端开发，可通过参数调整与目标应用和硬件架构相匹配。
为验证RAT技术的可靠性，研究选择了运行在ARM Cortex-M4与Cortex-M7微处理器上的七层卷积神经网络模型，该模型基于CMSIS-NN库，采用定点数表示，优化了内存与计算需求。此外，实验数据选用了CIFAR-10图像数据集，共包含六万张32×32像素的彩色图像分为10个类别。
2. 实验流程实验分成多个步骤，重点方法和设备包括： 1. 辐射测试准备：辐射测试采用了位于法国Grenoble的LPSC中子源，利用14MeV中子发生器进行中子轰击测试。实验分两次完成，分别在2021年11月（测试Cortex-M4）和2022年7月（测试Cortex-M7）进行。平均中子流量约为每平方厘米740万～920万n/s。 2. 软硬件设置： - 使用的实验板包含STM32-L476RGT6U（Cortex-M4）和STM32-F767ZIT6（Cortex-M7）。两块硬件都开启了最大频率运行，以及启用了缓存。 - 测试CNN模型的输入数据为一张小型图片（32×32，狗类别），存储于RAM，其分类结果为包含10个整数值的矢量。 3. 辐射测试流程： - 首先通过UART和控制计算机进行通信，确保数据传输无误。 - 按每轮测试的流程对CNN进行初始化、核对输入数据完整性、运行主函数并校验输出结果。 - 在出现错误或当设备响应失常时，通过重新编程或电源循环重置设备。 4. 数据分析方法：研究使用多项可靠性指标，包括Fit（Failure in Time，每十亿小时的故障数）和MWTF（Mean Work to Failure，故障发生前的平均工作量）。辐射导致的错误被分为三类：可接受错误（tolerable）、关键性错误（critical）与系统崩溃（crash）。
研究结果ARM Cortex-M4测试：
在未加固和RAT加固的CNN模型中，分别执行了4636次和4859次测试运行。
未加固版本的运行时间为538ms，加固后因寄存器约束增加，运行时间延长为712ms（约增长32%）。
成果显示，RAT技术可使CNN模型的关键错误Fit率降低2.1倍，系统崩溃Fit率降低1.1倍，而可接受错误的Fit率改善显著，下降了6.5倍。
RAT对内存的使用无显著影响，仅在Flash内存中增加了约3.9%的占用。
ARM Cortex-M7测试：
在未加固和RAT加固的CNN上，分别执行6231次与7500次测试。
未加固版本运行时间为430ms，加固后为570ms（同样增加32%）。
RAT方案显著减少了关键错误的Fit率（改善4.78倍），系统崩溃的Fit率降低了2.35倍。
初步对比表明，Cortex-M7设备对辐射引发的崩溃具有更高的抗性。
总体比较：
两种型号的ARM微处理器均受益于RAT加固方案，尤其是在减少关键性错误方面。研究显示，加固版本的关键性错误Fit率下降了80%以上。
Cortex-M7的测试结果表现出更高的辐射抗性，同时表明CNN模型受运行指令类别（内存访问、控制、数据处理）分布的影响。
结论与意义本研究证明了在资源受限设备上，RAT是一种轻量级、高效的软错误缓解方法。它无需额外硬件开销或数据集修改，与现有的硬件冗余方法相比具有更低的性能副作用，同时获得了显著的可靠性提升。对于如无人机、传感器等嵌入式应用，其意义重大。
研究表明，RAT技术减少了中子辐射下CNN模型的软错误发生率，适用于简单低功耗嵌入式微处理器构架。未来研究计划探索RAT在更复杂神经网络模型（如AlexNet）以及其他微处理器架构（如RISC-V）的应用潜力。
研究亮点与未来方向研究亮点：
首次实现在ARM Cortex-M微处理器上的RAT辐射测试。
实验覆盖了长时间的辐射暴露与多种软错误分类，方法细致严谨。
RAT技术的轻量化实现与高效性为DNN任务抗辐射加固提供一种新路径。
未来方向：
将RAT技术应用于GPU和其他加速器场景。
探索与更底层代码级缓解技术的结合以提高全面抗辐射能力。
针对特定任务优化多领域嵌入式边缘计算的软错误防护方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问