一种面向嵌入式场景的五级流水线RISC-V处理器设计

面向嵌入式场景的高能效RISC-V处理器设计：学术研究报告

一、作者、机构与发表信息

本研究由来自重庆科技大学计算机科学与工程学院（人工智能学院）、重庆市高校智能汽车网联协同与安全重点实验室的于安宁（通信作者）、黄晗、利节，以及重庆大学微电子与通信工程学院的曾孝平共同完成。研究成果以论文形式发表在《计算机应用研究》（Application Research of Computers）期刊上。该论文于2026年2月9日收稿，并于2026年6月3日进行网络首发，DOI号为10.19734/j.issn.1001-3695.2026.02.0028。

二、学术背景与研究目标

本研究属于计算机体系结构，具体为处理器微架构设计领域。研究的动机源于嵌入式系统，特别是智能网联汽车与物联网（IoT）中分布式控制节点对计算单元提出的严苛要求：在成本、功耗和实时性之间取得平衡。传统的商业指令集架构（ISA），如x86和ARM，在嵌入式场景下面临授权成本高、定制灵活性有限等挑战。近年来，开放、模块化的RISC-V指令集架构因其可定制性和低知识产权风险，成为学术界和工业界的热门选择。

然而，现有的面向嵌入式的RISC-V处理器设计存在一个性能与开销的权衡难题。一方面，为追求低开销和易集成而设计的浅流水线处理器（如二级流水的蜂鸟e203、三级流水的tinyriscv），其工作频率和指令吞吐量存在瓶颈，难以满足日益复杂的端侧计算任务（如轻量推理、协议处理）对突发高负载和实时响应的需求。另一方面，采用乱序执行等复杂技术以提升指令级并行性（ILP）的设计，虽然能获得高性能，但会带来显著的面积开销和验证成本，不适合资源受限的嵌入式平台。

因此，本研究旨在设计并实现一款能够在资源开销、功耗和性能之间取得更优平衡的RISC-V处理器。具体目标包括：1）设计一款基于RV32IM指令集的32位五级顺序流水线处理器核；2）在维持低硬件资源消耗的同时，通过微架构优化显著提升单位频率下的指令执行效率；3）为资源受限的嵌入式应用提供一个兼顾高性能与高能效的RISC-V处理器解决方案。

三、详细研究流程与方法

本研究主要包含三个核心流程：处理器核微架构设计、基于AXI4-Lite总线的片上系统（SoC）搭建，以及功能验证与性能分析。

流程一：处理器核微架构设计与实现
本研究设计的核心是一个五级顺序流水线处理器，五个阶段依次为：取指（IF）、译码（ID）、执行（EX）、访存（ME）和写回（WB）。研究团队针对嵌入式场景的需求，在标准五级流水线基础上进行了多项关键优化。

研究对象与设计方法：研究对象是处理器微架构的各个模块。设计采用硬件描述语言Verilog HDL进行实现。研究采用了自上而下的设计方法，首先定义整体架构（如图1所示），然后细化每个流水级的内部结构。
取指级（IF）优化：为应对指令缓存（I-Cache）未命中时通过AXI4-Lite总线访问外部存储带来的多周期延迟，研究在取指与译码级之间引入了深度为4的地址缓冲（pcbuf）和指令缓冲（inbuf）。这两个缓冲器的作用是解耦前端取指和后端译码，允许取指单元在总线访问等待期间继续发出地址请求并排队，指令返回后暂存于缓冲中。这样，即使总线访问有延迟波动，译码级仍能从指令缓冲中稳定获取指令，避免了因等待取指而产生的流水线气泡，提升了前端指令供给的连续性。
动态分支预测机制：为减少控制冒险（Control Hazard）导致的流水线冲刷和性能损失，研究在取指级集成了一个基于2-bit饱和计数器的动态分支预测单元（BPU）。该预测器针对条件分支指令，其状态包括“强不跳转”、“弱不跳转”、“弱跳转”、“强跳转”四种（状态转移如图3所示）。与1-bit预测器相比，2-bit设计需要连续两次与实际方向相反的结果才会改变预测方向，对分支行为的短暂波动更具鲁棒性，能有效提高预测准确率。预测器在执行级（EX）得到分支实际结果后进行更新，从而自适应程序行为。
译码级（ID）优化：译码级负责指令解析和操作数准备。本研究将通用寄存器堆（Regs）和控制状态寄存器（CSR_Regs）的读操作集中在本阶段完成，避免了将读操作分散到后续阶段而拉长关键路径，有利于提高处理器最高工作频率。同时，译码级集成了数据冒险处理单元，用于检测RAW（写后读）相关。当检测到相关且所需数据已在后续流水段（如EX、ME级）产生时，通过数据前递（Data Forwarding）技术直接将最新结果旁路到译码级，从而避免流水线停顿。对于无法通过前递解决的Load-Use相关等情况，则触发流水线停顿（Stall）控制。
执行级（EX）设计：执行级是运算核心。本研究采用“单周期通路为主、按需多周期增强”的策略。算术逻辑单元（ALU）、移位比较、地址生成等高频操作在一个周期内完成。对于RV32M扩展要求的乘除法运算，集成了硬件乘除法单元（MUL/DIV），通过握手信号和结果锁存机制将其纳入统一的流水线控制，避免了为乘除法单独增加流水级带来的额外开销。此外，执行级还完成分支方向的实际判定、异常检测（如PC对齐、访存对齐、非法指令）以及CSR写控制信号的生成。
访存（ME）与写回（WB）级及存储结构：采用哈佛（Harvard）存储结构，将指令通路和数据通路分离，分别连接独立的I-Cache和D-Cache，以减少结构冲突。访存阶段发起加载（Load）/存储（Store）请求，写回阶段处理返回数据并进行对齐、符号扩展等操作，最后写回寄存器堆。这种分离结构使得取指和数据访问在多数情况下可以并行进行。

流程二：片上系统（SoC）搭建
为了验证处理器核在系统环境中的功能，研究团队基于AXI4-Lite总线构建了一个简单的SoC（系统结构如图6所示）。该SoC集成了设计的RISC-V处理器核、I-Cache、D-Cache、用于存储程序的ROM、用于存储数据的RAM以及用于调试通信的UART接口。这个SoC平台为后续的软件测试和性能评估提供了硬件基础。

流程三：功能验证与性能分析

功能验证方法：采用差分测试（Differential Testing）方法进行逻辑功能验证。具体流程（如图7所示）为：首先编写覆盖RV32IM指令集的测试程序，使用RISC-V GCC工具链编译生成二进制文件；将该文件载入待测处理器（DUT）的存储器模型和作为参考模型的指令集模拟器（ISS）中；让两者同步运行，并逐条记录指令提交点（Commit Point）的体系结构状态，包括程序计数器（PC）、指令编码、指令类型、源/目的寄存器值、访存地址和数据等；最后对两者的执行轨迹进行比对（如图8、图9所示示例）。若所有指令的执行踪迹完全一致，则证明处理器设计的功能正确性。论文报告已对RV32IM指令集的55条指令全部测试通过。
性能分析方法：使用FPGA平台进行综合与板级测试，以评估设计的硬件开销和性能。研究将设计在Xilinx Kintex UltraScale+ XCKU5P FPGA上进行综合，并下载到开发板（图10）运行。在200MHz的目标频率下，通过工具报告获取资源消耗（Slice LUTs和Registers）和功耗数据。性能评测采用两个业界通用的基准测试程序：Dhrystone（用于评估整数计算和控制流性能，结果以DMIPS/MHz表示）和CoreMark（用于评估嵌入式核心综合性能，结果以CoreMark/MHz表示）。通过与同类开源处理器（蜂鸟e203、VexRiscv等）的公开数据进行横向对比，来评估本设计的能效优势。

四、主要研究结果

1. 功能验证结果：差分测试结果表明，本设计处理器的所有指令执行行为与指令集模拟器（参考模型）完全一致。如图8和图9所示，对于加法指令（add）和乘法指令（mul），待测处理器与模拟器在相同的PC点，输出的指令解码信息、源操作数值、计算结果（目的寄存器值）以及后续的访存地址和数据均完全相同。这全面验证了处理器核对于RV32IM指令集架构的准确实现，为性能分析奠定了可靠的基础。

2. 硬件资源与功耗结果：在Xilinx KU5P FPGA平台上，目标频率200MHz下综合实现后，处理器核共消耗5712个Slice LUTs和2091个寄存器。各流水级资源分布如表1所示：取指级因包含分支预测、缓存控制和取指缓冲等复杂前端逻辑，Slice LUTs消耗最多（3060个）；译码级因包含寄存器堆和大量控制信号锁存，寄存器消耗最多（1346个）；执行级因集成ALU、乘除法器等运算单元，Slice LUTs消耗也较高（1493个）；访存和写回级逻辑相对简单，资源消耗很少。功耗分析显示，处理器核心动态功耗约为0.06W，其中取指、译码、执行三级是主要功耗来源。折算后的归一化能效约为5400 DMIPS/W和9376 CoreMark/W。

3. 性能评测结果：在200MHz工作频率下，处理器Dhrystone性能为324 DMIPS，CoreMark性能为562。折算为单位频率性能，即达到1.62 DMIPS/MHz和2.81 CoreMark/MHz。与同类设计对比（如表2所示）：

与采用二级流水、静态分支预测的蜂鸟e203相比，DMIPS/MHz提升30.6%（1.24 -> 1.62），CoreMark/MHz提升31.3%（2.14 -> 2.81）。
与同为五级流水、动态分支预测的VexRiscv相比，DMIPS/MHz提升30.6%（1.24 -> 1.62），CoreMark/MHz提升19.6%（2.35 -> 2.81）。
与另一款五级流水线设计（文献[27]）相比，虽然其CoreMark/MHz（3.25）略高，但其Slice LUTs消耗（16896）约为本设计（5712）的3倍。本设计在资源消耗大幅降低的前提下，仍保持了有竞争力的性能。

4. 结果分析与逻辑关联：功能验证的成功确保了性能比较的有效性。资源与功耗结果表明，本设计在FPGA上实现了较低的硬件开销。性能对比结果直接支撑了研究的核心论点：通过五级流水线深度与多项微架构优化（动态分支预测、取指缓冲、数据前递、哈佛存储结构）的协同设计，本处理器在资源开销与蜂鸟e203、VexRiscv相当甚至更有优势的情况下，实现了显著的性能提升。这证明了研究团队所采取的优化路径是有效的，成功地在复杂度、资源开销和性能之间找到了一个更优的平衡点，特别适合资源受限的嵌入式场景。性能提升主要归因于：a) 动态分支预测减少了控制冒险气泡；b) 取指缓冲平滑了总线访问延迟；c) 译码级集中读寄存器与数据前递缓解了数据冒险；d) 哈佛结构与分离缓存降低了结构冲突。

五、研究结论与价值

本研究成功设计并实现了一款面向嵌入式场景的32位五级流水线RISC-V处理器核。该处理器基于RV32IM指令集，采用顺序执行模式，通过集成动态分支预测、取指缓冲、数据前递等优化技术，有效抑制了流水线停顿，显著提升了单位频率下的指令执行效率。

科学价值：本研究为嵌入式处理器设计提供了一个在有限硬件资源约束下实现高性能的微架构优化范例。它详细阐述了如何通过前端取指优化、分支预测、数据通路设计等具体技术，在五级顺序流水线这一经典架构上挖掘性能潜力，对RISC-V处理器微架构研究具有参考意义。

应用价值：该处理器在维持极低硬件资源消耗（5712 LUTs, 2091 Registers @200MHz）的同时，取得了优于多数同类开源设计的能效表现（1.62 DMIPS/MHz, 2.81 CoreMark/MHz）。这使其非常适用于智能网联汽车、物联网终端等对成本、功耗和实时性有严格要求的分布式控制节点，为相关领域提供了一种兼具高性能与高能效的RISC-V处理器解决方案。

六、研究亮点

平衡的设计哲学：研究没有盲目追求极致的浅流水线（低面积）或复杂的深流水/乱序执行（高性能），而是选择了五级顺序流水线这一折中点，并围绕其进行精细化优化，实现了复杂度、资源开销与性能的良好平衡。
协同的微架构优化：创新点不在于单一技术的突破，而在于多项成熟技术（动态分支预测、取指缓冲、数据前递、哈佛结构）针对嵌入式场景的协同设计与集成。特别是结合AXI4-Lite总线特性设计取指缓冲以覆盖访问延迟波动，是一个具有工程实用价值的优化。
显著的能效提升：通过与主流开源处理器（蜂鸟e203, VexRiscv）的实证对比，本设计在相近甚至更低的资源开销下，取得了30.6%和19.6%以上的性能提升，有力证明了其优化方案的有效性和优越性。
完整的实现与验证：研究不仅完成了RISC-V核的Verilog实现，还搭建了基于AXI4-Lite的SoC验证平台，并采用严谨的差分测试方法完成了全面的指令集功能验证，确保了设计的正确性和可靠性。

七、其他有价值内容

论文在“验证与分析”部分还提供了各流水级资源与功耗的详细分布（表1），这为了解处理器内部各模块的硬件成本构成提供了直观数据，对于后续的优化或裁剪具有指导意义。此外，论文对性能提升原因的四点归纳（a, b, c, d）清晰总结了微架构优化与性能指标之间的因果关系，有助于读者理解设计精髓。最后，论文指出了后续工作方向，如扩展指令集、引入更高效的存储层次和定制加速机制，展现了研究的延续性。

文献信息

一种面向嵌入式场景的五级流水线RISC-V处理器设计