本文档是关于“RADECS 2021会议”上一份研究报告的学术摘要,标题为《A Soft-Error Hardened by Design Microprocessor Implemented in Bulk 12-nm FinFET CMOS》。本文主要由 Lawrence T. Clark、Alen Duvnjak、John Brunhaver、Sapan Agarwal、Jack E. Manuel、Matthew Cannon 和 Matthew J. Marinella 等作者完成,研究单位为 Sandia National Laboratories。这篇研究报告旨在介绍一种基于 12nm FinFET CMOS 工艺的软错误(Soft Errors)容错微处理器设计方法,并详细描述了其架构设计、硬化技术、实验流程与结果以及未来研究方向。以下是针对该研究的详细学术报告。
这项研究的作者主要来自 Sandia National Laboratories,此外还有与作者相关的多个合作单位。Sandia National Laboratories 是由 Honeywell International Inc. 全资子公司 National Technology & Engineering Solutions of Sandia, LLC 管理的一家承担多项任务的实验室,为美国能源部国家核安全局服务。
本文所在的科学领域属于电子与计算机工程以及芯片设计领域,聚焦于提高微处理器对软错误的鲁棒性。软错误是由于辐射环境(如重离子或质子撞击)中产生的电荷反转导致的瞬态错误,它们在高辐射环境(如空间、核电站等)中尤其显著。本文阐述了一个全新设计的微处理器架构 Hermes,该微处理器从头设计以提高其对软错误的容忍能力。
研究目标在于开发一种能够在高效功耗和小面积基础上,最大限度提高对软错误抵抗能力的微处理器设计解决方案。具体目标包括: 1. 开发具有软错误硬化能力的微架构; 2. 提供有效纠错与修复机制(包括硬件与软件层面的协同); 3. 验证这些增强设计的有效性。
Hermes 微处理器的设计与研究流程分为多个阶段:
Hermes 的微架构以 MIPS 4KC 为基础,进行了多项创新以提高软错误容错能力: - 基本架构采用 5 级流水线作为基线,支持全面的全翻译后备缓冲(Translation Lookaside Buffer, TLB)内存管理单元(MMU),适配操作系统如 Linux。 - 通过添加第 6 级流水线专门处理分支延时槽中的错误。 - 所有流水线均为全合成设计,存储器数组与寄存器文件使用自定义电路设计,其中存储单元集成了静态 10-T 内存结构(用于快速迁移工艺流程)。
Hermes 的容错设计分为以下几个主要方面: - 双模冗余(Dual Mode Redundant, DMR)电路:通过检测投机执行的状态与实际状态之间的不一致,避免错误结果提交至架构层。 - 三模冗余(Triple Mode Redundant, TMR)电路:对于关键的架构状态(如程序计数器),TMR 确保其可靠性;寄存器文件使用自修正 TMR 触发器设计,可通过 Mülller C 元件反馈实现低功耗自动校正。 - 所有架构状态均设计了 DMR 检查器,当错误提交到架构状态前会触发软错误例外(SE Exception)以进行修复。
Hermes 的设计通过软件实现软错误的修复。例如: - 通过 SE Exception 检测错误,并调用错误处理程序进行修复。 - 包括在寄存器文件与缓存发生错误时的修复操作。 - 修复流程包括清除错误的指令缓冲区与缓存,并重新运行最后一条正确退役指令。
实验使用 Hermes 微处理器的 12nm 工艺测试芯片,并结合 FPGA 作为外围芯片组实现总线交互。测试设计包括: - 应用矩阵乘法测试程序,分为开启缓存与关闭缓存两种模式,以测量不同条件下错误检测与修复的表现。 - 使用重离子与质子辐射源进行实验,分别测量多种辐射条件下芯片的错误率与容错性能。
实验结果分为两大部分:重离子测试与质子测试。
实验条件包括 LET=5.6 MeV·cm²/mg 的 20 MeV 碳重离子,测试结果如下: - 激活缓存情况下,检测到 515 次 SE Handler 记录,正确矩阵输出 174 次(测试通过),失败 56 次。 - 关闭缓存情况下,仅检测到 84 次 SE Handler 记录,测试通过 36 次,失败 4 次,且未发生一般性异常。 - 分析表明,缓存的存在使指令密度增加,但也增加了错误发生率。
实验条件包括 LET=0.15 MeV·cm²/mg 的 1.8 MeV 氢质子辐射,仅在缓存激活条件下进行: - 测得 319 次 SE Handler 记录,正确矩阵输出 1954 次(测试通过),失败 50 次。 - 对质子的初步结果表明,Hermes 的框架设计对缓存相关单元的软错误表现出了较高的容错性。
通过实验得出以下结论: - Hermes 芯片在重离子与质子测试中均未发生芯片整体失效现象。 - 缓存开启时错误发生率更高,但也带来了更大的性能提升(指令执行率高 5 倍)。 - 寄存器文件在缓存关闭条件下占总交叉截面积的比例显著提升。 - 存在部分硬化不足的问题,但这些问题可能来源于检查器的边界效应或实验设备的局限性。
本文研究开发的 Hermes 微处理器在提高软错误容错性上具有重要意义。从 MIPS 4KC 基础上重新设计的硬化架构,结合创新的硬件与软件修复技术,在重离子与质子辐射环境下的实验结果证明了该设计的有效性。研究为未来的容错处理器设计提供了以下几点价值: 1. 提供了一种功耗优化与面积受限条件下的硬化设计途径; 2. 提供了一种完整的软错误修复工作流,包括硬件和软件协同; 3. 为其他高辐射环境中的微处理器设计提供了极具价值的实验数据与参考。
本文指出进一步研究的方向,包括: 1. 通过更多质子实验数据验证 Hermes 的容错能力与性能。 2. 进一步优化错误检查与修复流程,以减少错误处理中的边界条件问题。 3. 解析与指令混合执行活跃时间相关的脆弱性,并进一步优化架构设计。
本研究由 Sandia 实验室的 SEEEC 实验室指导研究和开发计划完成,并通过美国能源部的资助支持。