分享自:

Bluescale:一种用于高度集成SoC上可预测实时计算的可扩展内存架构

期刊:proceedings of the 59th ACM/IEEE Design Automation Conference (DAC)DOI:10.1145/3489517.3530612

《Bluescale:面向高度集成SoC的可扩展内存架构及其在实时可预测计算中的应用》学术报告

一、作者与发表信息
本文由Zhe Jiang(Arm Ltd, UK)、Kecheng Yang(Texas State University, USA)、Neil Audsley(City, University of London, UK)、Nathan Fisher与Weisong Shi(Wayne State University, USA)、Zheng Dong(Wayne State University, USA)共同完成,发表于2022年ACM/IEEE设计自动化会议(DAC ‘22),会议地点为美国旧金山。论文标题为《bluescale: a scalable memory architecture for predictable real-time computing on highly integrated socs》,全文共6页,DOI编号10.11453489517.3530612。

二、学术背景与研究目标
科学领域:本文属于嵌入式实时系统(real-time embedded systems)与片上系统(System-on-Chip, SoC)设计领域,聚焦于内存互连架构的实时可预测性(time-predictability)与硬件可扩展性(hardware scalability)。
研究动机:随着SoC集成度提升(如5nm工艺),处理器与硬件加速器(HAs)数量增加,传统集中式内存互连(如AXI-Interconnect)因仲裁器逻辑复杂度和调度开销成为系统瓶颈。分布式互连(如Bluetree)虽提升硬件扩展性,但其启发式仲裁策略无法满足实时任务对时序确定性的需求。
研究目标:提出一种新型层次化分布式内存互连架构Bluescale,通过统一的可扩展单元(Scale Element, SE)实现硬件可扩展性,并基于嵌套优先级队列的迭代组合调度(iterative compositional scheduling)保障实时性能。

三、研究流程与方法
1. 架构设计
- 硬件拓扑:Bluescale采用四叉树(quadtree)结构组织SE,每个SE连接4个子节点(客户端或其他SE)和1个父节点(内存子系统)。SE通过本地调度器独立管理事务,避免全局仲裁。
- 核心创新
- Scale Element (SE):包含请求路径(4个优先级队列)、参数路径(接口选择器)和响应路径(解复用器)。
- 随机访问缓冲区(random access buffer):替代传统FIFO,支持按优先级动态提取请求(见图2c)。
- 本地调度器:采用周期资源模型(periodic resource model),通过周期计数器(p-counter)与预算计数器(b-counter)实现服务器任务(server task)的带宽分配(θ/π)。

  1. 调度策略

    • 组合调度算法(Algorithm 1)
      1. 上层调度:将SE的传输容量分配给虚拟元素(Virtual Element, VE),每个VE对应一个客户端组件。
      2. 下层调度:基于最早截止时间优先(GEDF)策略调度客户端任务。
    • 接口选择算法:通过理论模型计算最小带宽θ/π,确保任务集的可调度性(schedulability)。关键定理包括:
      • 定理1:有限时间边界β内验证需求约束函数(dbf)与供给约束函数(sbf)的关系。
      • 定理2:确定VE周期π的可行范围以避免资源过载。
  2. 实验验证

    • 硬件开销:在Xilinx VC707 FPGA上实现,支持16/64客户端配置。与AXI-InterconnectRT、Bluetree等对比:
      • 资源消耗:Bluescale占用2,959 LUTs、3,312寄存器,功耗67mW(表1)。
      • 可扩展性:面积与功耗随客户端数量线性增长,最大频率不受规模影响(图5)。
    • 实时性能
      • 合成负载测试:64客户端下,Bluescale阻塞延迟(blocking latency)为450μs,低于Bluetree的540μs;截止时间错过率(deadline miss ratio)趋近0%(图6b)。
      • 实际用例:汽车安全任务(如CRC、RSA32)在30%利用率下成功率100%(图7)。

四、研究结果与逻辑链条
1. 硬件效率:SE的异构性设计(统一硬件架构)降低了系统集成开销,实验显示其面积比AXI-InterconnectRT减少21%,频率提升15%(图5c)。
2. 实时保障:嵌套优先级队列与接口选择算法将内存事务的响应时间方差降低至启发式方法的1/6(对比Bluetree),支撑了定理1的理论边界有效性。
3. 可扩展性:四叉树结构支持动态任务更新,仅需修改相关路径的服务器任务参数,无需全局重配置(第3.2节)。

五、结论与价值
1. 科学价值
- 提出首个支持组合调度的分布式内存互连架构,解决了硬件扩展性与实时可预测性的矛盾。
- 建立了基于sbf/dbf的接口选择理论框架,为多核实时系统资源分配提供新方法。
2. 应用价值:适用于自动驾驶、图像识别等需高集成度与确定性的场景,已在T-CREST、BlueVisor等实时SoC中验证。

六、研究亮点
1. 创新性设计:SE的双层调度机制(服务器任务+本地任务)是首次在内存互连中实现组合调度。
2. 理论突破:定理2首次给出VE周期的必要约束条件,弥补了传统资源模型在层次化系统中的空白。
3. 工程实践:随机访问缓冲区与纯组合逻辑调度电路(单周期决策)显著降低时序不确定性。

七、其他价值
- 开源实现:基于Bluespec SystemVerilog,可复用于其他NoC设计。
- 跨领域潜力:架构思想可扩展至AI加速器互连(如论文引用的Nebula DNN加速器)。

(注:全文术语首次出现均保留英文原词,如LUTs(查找表)、GEDF(全局最早截止时间优先)等。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com