分享自:

迭代布局感知的功耗、热和IR压降协同优化:确保3D-IC中的收敛性

期刊:IEEE Journal on Emerging and Selected Topics in Circuits and SystemsDOI:10.1109/JETCAS.2025.3591727

本文报告了一项关于三维集成电路中功耗、热和电压降协同优化的原创性研究,属于类型a。以下是为中文读者撰写的详细学术报告。

关于三维集成电路中迭代式、版图感知的功耗-热-电压降协同优化框架的学术研究报告

一、 研究团队与发表信息

本研究由来自学术界与工业界的多位专家合作完成。主要作者包括:Mohamed Naeim(所属机构为Cadence Design Systems及布鲁塞尔自由大学)、Dwaipayan Biswas、Yun Dai、Odysseas Zografos、Herman Oprins、Geert van der Plas、C. T. Kao、Pinhong Chen和Dragomir Milojevic。其中,多位作者来自全球领先的微电子研究中心imec以及电子设计自动化(EDA)领域的知名企业Cadence Design Systems,这种产学研结合的模式确保了研究兼具前沿学术洞察与工程实践可行性。

该研究成果以题为《Iterative Layout-Aware Power, Thermal, and IR-Drop Co-Optimization: Ensuring Convergency in 3D-ICs》的论文形式,发表于IEEE Journal on Emerging and Selected Topics in Circuits and Systems期刊2025年12月出版的第15卷第4期。论文已于2025年3月16日收稿,并于2025年7月22日在线发布。

二、 学术背景与研究目标

本研究隶属于集成电路(IC)设计,特别是物理设计、热管理和电源完整性分析交叉领域。随着摩尔定律推动器件持续微缩以及三维(3D)集成技术的广泛应用,芯片的功率密度急剧攀升,引发了严峻的热完整性与电源完整性挑战。高功率密度会导致局部热点(Hotspot),进而引发热失控(Thermal Runaway)——即温度升高导致漏电功耗指数级增长,而功耗增加又进一步推高温度,形成正反馈循环,最终威胁器件可靠性并导致性能下降。此外,温度分布不均匀会影响后端金属互连线(BEOL)的电阻,从而加剧电压降(IR-Drop),影响芯片稳定运行。

传统的设计流程通常对功耗、热和电压降进行独立或单次迭代分析,这难以精确捕捉上述电热耦合效应,尤其是在复杂的3D堆叠结构中。因此,开发一个能够精确、迭代地分析电热耦合影响的框架,对于确保先进2D和3D集成电路设计的可靠性至关重要。

本研究旨在提出并验证一个基于商用EDA工具的电热耦合分析框架。该框架的核心目标是实现对2D和3D多核RISC-V系统级芯片(SoC)进行迭代式的、版图感知的功耗、热和电压降协同分析与优化。具体研究目的包括:1)自动化迭代功耗-温度(P-T)仿真,以评估热收敛性和识别热失控风险;2)比较不同3D堆叠配置(如存储器在逻辑上方,Memory-on-Logic, MoL;逻辑在存储器上方,Logic-on-Memory, LoM)的热特性;3)精准定位并追踪热点演变;4)评估不同冷却策略的效果;5)量化温度对电压降的影响,并探索通过物理设计调整(如优化电源配送网络PDN)来缓解该影响的方法。

三、 研究方法与详细工作流程

本研究构建了一个完整、自动化的设计-分析-优化闭环流程,其工作流程可概括为以下几个核心步骤:

1. 实验对象与物理设计实现: 研究以一个名为“Mempool”的开源、可配置的64核RISC-V SoC作为实验对象。该设计包含16个Tile(瓦片),每个Tile包含4个单发射、单级流水线的RISC-V核心及共享存储体。研究团队使用imec的A10纳米片(Nanosheet)工艺设计套件(PDK),并采用晶圆到晶圆混合键合(Wafer-to-Wafer Hybrid Bonding, W2W-HB)技术进行3D集成。他们分别实现了该设计的2D版本以及两种3D分区版本:MoL(逻辑层在下,存储层在上)和LoM(存储层在下,逻辑层在上)。所有设计均通过Cadence Innovus工具完成布局布线(PnR),达到0.8 GHz的目标频率,并生成了用于后续分析的版图数据。

2. 迭代式电热耦合分析框架的构建与运行: 本研究提出的核心框架如图3所示,它以Cadence Integrity 3D-IC工具为中心平台,集成了物理设计(Innovus)、电源完整性分析(Voltus)和热分析(Celsius)工具。其创新性在于实现了基于版图的、多迭代的闭环分析,具体流程如下: * 初始化与功率分析: 流程始于完成布局布线的设计。首先,在参考温度(通常为25°C)下进行初始的功耗与电压降分析(第1次迭代,P1)。关键的一步是,工具会生成一个“基于版图的功率地图”(Layout-based Power Map)。该地图将芯片区域划分为网格像素,每个像素不仅包含该区域的平均功耗值,还包含各金属层和通孔层的平均金属密度信息。这种精细化的数据输入为后续高精度热分析奠定了基础,相比传统的基于模块的均匀功率假设,能更准确地预测芯片内部的热点位置。 * 热分析: 将上一步生成的功率地图,连同封装堆叠结构定义、各层材料热导率、边界条件(如环境温度)以及冷却系统参数(以热传递系数HTC表征)一起,输入Celsius热分析工具。工具进行详细的三维热仿真,输出一个与功率地图结构对应的“基于版图的热地图”(Layout-based Thermal Map),其中包含了器件层以及各金属/通孔层的温度分布。 * 电热反馈与迭代: 热地图被反馈回电源完整性分析工具,开启下一次迭代。器件层的温度被用于更新每个标准单元和存储宏的漏电功耗模型(工具利用多温度角库进行线性插值),从而计算出更准确的总功耗(P2)。同时,金属/通孔层的温度被用于根据公式 R(t) = R0[1 + α(t - t0)] 更新互连线的电阻值,其中α是电阻温度系数。电阻的变化直接影响电源配送网络的阻抗,从而影响电压降分析结果。 * 收敛判断: 上述过程反复迭代,直到设计达到稳定的功耗-温度状态(即连续迭代间功率和温度的变化小于0.01%),或被判定为热失控(功率和温度持续上升,无法收敛)。通过这种多次迭代,框架能够捕捉单次分析无法揭示的动态电热相互作用。

3. 实验设计与数据分析: 为了全面评估设计在不同工况下的行为,研究设计了多组对比实验: * 功率密度场景: 通过设置不同的统计开关活动率(Switching Activity, SA)来模拟不同工作负载,对应初始功率密度分别为110 W/cm² (5% SA)、160 W/cm² (10% SA) 和 260 W/cm² (20% SA)。 * 冷却条件: 改变散热器的热传递系数(HTC: 150, 200, 300 W/m²K),模拟不同效率的冷却方案。 * 配置对比: 系统比较2D、3D-MoL和3D-LoM三种配置在相同热/电条件下的表现。 * 电压降缓解实验: 针对2D设计,比较了两种电源配送网络(PDN)栅格(Tap Pitch)密度(192 CPP 对比 48 CPP)对由温升引起的电压降恶化的缓解效果。

数据分析涵盖了功耗、峰值温度(Tmax)、热点位置演变、电压降值等关键指标,并通过图表(如收敛曲线、热分布图、电压降累积分布函数CDF图)进行可视化呈现。

四、 主要研究结果

研究通过系统的迭代分析和对比实验,得出了以下重要发现:

1. 3D集成在PPA方面的优势与热特性差异: 物理设计结果显示,与2D基线相比,3D-MoL设计在达到相同性能(0.8 GHz)的同时,实现了10%的总功耗节省和25%的占地面积(Footprint)缩减。功耗节省主要源于互连线长度(Wirelength)的减少,特别是在连接存储模块的高层金属上。然而,迭代电热分析揭示了更深层次的问题:初始的功耗优势会因热效应而发生变化。在5% SA、HTC=150 W/m²K的收敛案例中,经过10次迭代后,3D-LoM配置保持了相对于2D约10%的功耗优势,而3D-MoL的功耗优势则缩减至仅4%。原因是MoL配置产生了更高的峰值温度,导致漏电功耗增加更多。

2. 热行为与堆叠配置的密切关系: 热分析结果明确显示,3D-LoM配置具有最佳的热特性。在相同冷却条件(HTC=150 W/m²K)下,其收敛后的峰值温度比3D-MoL低约6°C,甚至略低于(°C)或接近于2D设计。这是因为在LoM中,高功率密度的逻辑层位于堆叠顶部,更靠近散热器,热阻路径更优。相反,在MoL中,高功耗的逻辑层位于底部,其产生的热量必须穿过热阻较高的3D键合层才能到达散热器,导致散热效率低下,峰值温度最高。研究还发现,在MoL和LoM中,峰值温度始终出现在底层芯片,这凸显了堆叠对底层芯片散热的负面影响。

3. 迭代分析对准确评估至关重要: 研究强调,单次功耗-热分析不足以提供准确的设计指标。例如,在2D设计、5% SA、HTC=150 W/m²K的场景下,从第1次迭代到第4次收敛迭代,峰值温度上升了10%,总功耗增加了21%。此外,热点的位置也可能在迭代过程中发生迁移(如图12所示,热点从Tile 6转移到了Tile 15)。这证明了迭代电热耦合分析对于精确预测芯片在实际工作中的热状态和可靠性风险是不可或缺的。

4. 冷却效率对防止热失控的关键作用: 对于2D设计,在较低的冷却效率(HTC=150 W/m²K)下,仅有低功率密度(5% SA)场景能收敛;中、高功率密度(10%, 20% SA)场景均发生热失控。提高散热器效率(HTC增至200或300 W/m²K)是防止热失控、维持芯片稳定工作的有效手段。例如,当HTC从150提升至300 W/m²K时,原本会失控的20% SA高负载场景得以收敛。

5. 温度对电压降的影响及物理设计缓解方案: 电热耦合分析成功量化了温度对电源完整性的影响。对于2D设计,在20% SA、HTC=300 W/m²K的场景下,从第1次迭代到收敛迭代,平均芯片温度上升了10°C,导致动态电压降(以90%分位点计)增加了11%。为应对此问题,研究探索了物理设计层面的解决方案:将PDN栅格从较宽松的192 CPP加密到48 CPP。结果表明,更密的PDN栅格能将收敛迭代时的电压降低至原来的54%,有效抵消了温升带来的负面影响。当然,这需要付出约3%的面积开销和PDN布线资源增加的代价。

五、 研究结论与价值

本研究成功开发并验证了一个基于商用EDA工具的、迭代式、版图感知的电热耦合协同分析与优化框架。该框架能够高精度地评估2D和3D集成电路的功耗、性能、面积与温度(PPAT)以及电压降指标,并能有效识别热收敛与热失控场景。

研究的科学价值在于:1)系统揭示了在3D集成电路中,不同的堆叠分区策略(MoL vs. LoM)对热行为和最终功耗有着截然不同的影响,LoM在热管理方面更具优势;2)实证了在先进工艺和高密度集成下,迭代式电热耦合分析是获得准确设计指标的必由之路,单次或解耦分析可能导致严重误判;3)阐明了温度上升会显著恶化电压降,而通过物理设计优化(如加密PDN)可以有效缓解这一问题,为设计协同优化提供了具体路径。

其应用价值体现在:该框架为芯片设计者提供了一个实用的工具和方法学,可以在设计早期评估和优化热与电源完整性,特别是在复杂的3D IC设计中。它有助于在系统架构选择(如3D分区)、封装冷却方案设计以及物理设计优化(如PDN规划、热点分布优化)之间做出更明智的权衡,从而提升芯片的可靠性、性能并降低风险。

六、 研究亮点

  1. 方法创新性: 提出了一个自动化、迭代式、且基于精细版图信息(功率/金属密度地图)的电热耦合仿真框架。该框架将热分析与功耗/电压降分析紧密闭环,超越了传统单次或使用均匀功率模型的分析方法,显著提升了预测精度。
  2. 研究系统性: 工作非常全面,不仅比较了2D与3D,还深入对比了不同的3D堆叠方式(MoL与LoM);不仅分析了热行为,还延伸至对电压降的影响及缓解措施;不仅进行了仿真,还结合了具体的物理设计实现(如PDN调整)。
  3. 明确的工程指导意义: 研究结论给出了具体、量化的设计指导。例如,明确指出在热管理方面LoM优于MoL;量化了不同冷却效率对防止热失控的作用;提供了通过加密PDN栅格来抵消温升所致电压降的具体数据(降低54%)。
  4. 产学研结合: 研究基于真实的先进工艺PDK(imec A10)、开源高性能多核SoC(Mempool)和业界主流EDA工具流,使得研究成果具有很强的现实参考价值和可移植性。

七、 其他有价值内容

论文还对相关领域的工作进行了综述(第二节),梳理了在热墙(Thermal Wall)缓解策略(如热硅通孔TTSV、热界面材料TIM优化、3D分区探索)和电热耦合分析方面的前人研究,并通过表格清晰对比了本文工作与已有研究的差异和进展,突出了本工作在集成度、分析精度(版图级)以及涵盖IR-Drop协同优化方面的优势。此外,论文详细描述了所使用的技术假设(如3D键合技术、封装参数),为其他研究者复现或借鉴此工作提供了充分的技术细节。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com