本文档报告了一项名为“RetryTrigger: Intelligent Inference Duplication for Enhancing LLM Resilience to Hardware Transient Faults”的原创性研究。该研究由上海海事大学信息工程学院的 Jiajia Jiao 和 Yixu Yu 共同完成,发表于《Engineering Information Technology & Electronic Engineering》期刊2026年第27卷第4期,在线发表日期为2026年4月10日,论文编号为DOI:10.1631/eng.itee.2025.0104。
一、 学术背景
该研究属于大语言模型(Large Language Models, LLM)系统可靠性与容错计算交叉领域。随着大语言模型在各种自然语言处理任务中取得卓越性能,其模型规模和计算复杂度也急剧增长。这导致其在推理阶段对硬件瞬态故障(Transient Faults)愈发敏感,此类故障由宇宙射线、电压波动或热不稳定等因素引发,可能导致计算过程中的瞬时比特翻转。这些故障虽然短暂,却可能无声地损坏(Silent Data Corruption, SDC)模型的中间计算结果,导致输出质量严重下降,在医疗诊断、法律分析等安全关键领域尤为危险。
现有的LLM推理阶段保护方案主要分为三类:基于边界设定的策略(如激活值裁剪)、基于算法(Algorithm-Based Fault Tolerance, ABFT)的容错技术以及基于冗余的方案。然而,这些方法存在硬件依赖性强、开销大或覆盖率不完整等局限性。特别是,训练阶段的防御方法通常不适用于对延迟要求严格的实时推理。因此,研究者们旨在填补这一空白,开发一种无需硬件修改、开销低且能全面覆盖潜在故障的软件级解决方案。本研究的目标是提出一种名为RetryTrigger的、新颖的、无需硬件的、具备故障感知能力的推理方法,通过智能地触发重复推理来动态增强LLM对硬件瞬态故障的韧性,在可靠性和效率之间取得优越的平衡。
二、 研究详细工作流程
RetryTrigger采用一个两阶段框架:离线故障表征和在线动态缓解。其核心思想是训练一个轻量级的元模型(Meta-Model),在LLM推理过程中实时收集运行时特征,并预测是否需要执行重复推理。整个研究流程涉及以下详细步骤:
研究对象与故障注入:研究选择了七种具有代表性的LLM作为研究对象,覆盖了不同的架构和规模,包括:T5-small(编码器-解码器,翻译任务)、RoBERTa(编码器-仅编码器,情感分析任务)、BioMedBERT(编码器-仅编码器,生物医学完形填空任务)、Qwen2.5-Coder-0.5B/7B(解码器-仅解码器,代码补全任务)、MiniMind(解码器-仅解码器,文本问答任务)和OPT(解码器-仅解码器,文本补全任务)。研究明确排除了永久性存储故障,将故障模型设定为推理期间在中间激活张量中发生的16位BFloat16数值的瞬时比特翻转,包括单比特翻转和双比特翻转。实验采用PyTorch的register_forward_hook机制,在随机选择的线性层(如Q/K/V投影、前馈网络输出)的输出激活张量中,在随机的空间坐标(序列位置和隐藏层索引)和时间点(解码步骤)注入故障。
离线阶段:数据集构建与元模型训练:
retry(1表示需要重试,0表示接受)。scale_pos_weight参数来处理类别不平衡问题。训练完成后,模型被序列化保存以供在线部署。在线阶段:动态推理与选择性重试:
retry=1,则立即放弃当前推理输出,并使用相同的输入和配置执行一次完整的重新推理(最多一次重试)。如果预测为retry=0,则接受原始输出。这种设计利用了瞬态故障的非持久性,一次重计算通常足以恢复正确状态。数据与性能分析流程:研究采用多个指标来评估有效性:
retry=1)的召回率是优先关注的指标。三、 主要研究结果
故障检测器的高性能:训练得到的LightGBM元模型在所有七种LLM上都表现出优异的故障检测能力。在验证集上,对于关键的“重试”类别(retry=1),平均召回率高达0.9745,表明能够捕捉绝大多数由故障引起的SDC。同时,针对“无需重试”类别的召回率也接近完美,平均为0.9976,确保了极低的假阳性率,从而将不必要的重试开销降至最低。消融研究揭示了模型特定的特征重要性:例如,对于RoBERTa和MiniMind,最佳特征子集避开了传统的置信度指标,转而依赖于Logits分布的统计矩特征;对于BiomedBERT,移除在SHAP分析中占主导地位的logits_mean特征反而提升了F1分数,这避免了单一特征“掩盖”其他有用信号。这表明故障特征具有模型特异性,RetryTrigger能够自适应地利用最有效的特征子集。
卓越的SDC降低效果:在单比特翻转和双比特翻转两种故障模型下,RetryTrigger均能显著降低所有测试LLM的SDC率。实验结果显示,平均SDC降低率达到92.97%(单比特)和89.90%(双比特)。在最佳情况下(如单比特故障下),SDC降低率高达95.33%。特别值得注意的是,RetryTrigger有效地抑制了输入依赖的可靠性波动。例如,对于OPT模型,尽管基线SDC率在某些输入下会飙升到9%,但RetryTrigger能将其有效SDC率稳定在极低水平(如0.94%)。这表明检测器识别的是故障引起的固有特征异常,而非特定输入标记的偏差。
低开销与高效能:在保持高可靠性的同时,RetryTrigger引入了极低的开销。平均重试率(即计算开销)仅为4.1167%,在最佳情况下(BiomedBERT)可低至2.4012%。开销主要由真阳性(正确检测到的故障)贡献,而假阳性导致的冗余重试开销非常小。此外,其绝对延迟开销也处于可接受范围(在0.0090秒至1.0470秒之间)。与依赖硬件或进行广泛离线性能分析的方法相比,RetryTrigger这种纯软件、无硬件依赖、轻量级的方案更具部署灵活性。
全面的性能验证:研究通过广泛的实验验证了RetryTrigger的多方面优势:
结论与残差SDC来源分析:尽管检测器性能优异,但最终的SDC率并未降至零。这揭示了系统级容错中的一个关键现实:检测到故障并触发重试并不保证最终输出的正确性。残差SDC主要来源于三个方面:(1) 重试失败:即使故障被正确检测(TP),在相同故障硬件平台上执行的重推理过程自身仍可能遭遇新的瞬态故障,再次产生错误输出。(2) 检测遗漏:未被检测器捕捉到的故障(FN)将直接导致SDC。(3) 误报引入的新风险:误将正确输出标记为故障(FP)而触发的重试,反而为原本正确的执行过程引入了额外的故障暴露机会。这一分析深刻指出了在瞬态故障环境下构建可靠LLM推理系统的复杂性。
四、 研究结论与价值
本研究的结论是:RetryTrigger是一种高效、灵活且无需硬件依赖的软件解决方案,能够通过智能的选择性重复推理,显著增强大语言模型对硬件瞬态故障的韧性。它利用轻量级的运行时特征和预训练的LightGBM元模型,实现了高达95.33%的SDC降低,同时仅带来平均约4%的性能开销。
其科学价值在于,提出了一种新颖的、基于机器学习进行故障感知的动态推理框架,将瞬态故障缓解问题转化为一个轻量级的实时分类任务。这为LLM系统可靠性研究开辟了新的思路,强调了利用模型内部统计特征进行异常检测的有效性,并揭示了故障特征在不同模型架构间的特异性。
其应用价值非常突出:作为一种即插即用的纯软件方案,RetryTrigger无需修改硬件或重新训练模型,易于集成到现有的LLM部署管线中。它特别适用于对延迟和成本有严格限制,同时又对输出可靠性有高要求的生产环境,例如云计算服务、边缘设备以及自动驾驶、医疗辅助等安全关键领域。研究者已将相关代码和工具在GitHub上开源(https://github.com/ltbz/retrytrigger),促进了该领域的研究与应用。
五、 研究亮点