分享自:

高性能、低功耗的三维系统级封装设计及其通用小芯片互连技术

期刊:nature electronicsDOI:10.1038/s41928-024-01126-y

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


三维系统级封装设计中的高性能、高能效通用芯粒互连标准研究

作者及机构
本研究由Intel公司的四位资深专家合作完成:
- 第一作者Debendra Das Sharma(Intel Senior Fellow,美国圣克拉拉)
- Gerald Pasdast(高级首席工程师,圣克拉拉)
- Sathya Tiagaraj(高级工程师,圣克拉拉)
- Kemal Aygün(Intel Fellow,美国钱德勒)
研究成果于2024年3月发表在Nature Electronics期刊(Volume 7, pp. 244–254),DOI: 10.1038/s41928-024-01126-y。


学术背景

研究领域与动机
该研究属于先进封装技术与异构计算集成领域,聚焦于解决摩尔定律逼近物理极限后,如何通过芯粒(chiplet)技术和三维封装继续提升算力密度与能效。随着制程节点演进,单颗大尺寸芯片面临光罩尺寸限制和良率挑战,而芯粒架构可通过混合匹配不同工艺节点的模块实现性能优化。然而,现有芯粒互连标准(如UCle 1.0)在微凸点间距(bump pitch)低于1微米的3D集成场景中面临能效瓶颈。

关键技术背景
- 通用芯粒互连标准(Universal Chiplet Interconnect Express, UCIe):2022年发布的开放行业标准,支持多供应商芯粒在封装级互联。
- 三维封装技术:如混合键合(hybrid bonding, HB)可将凸点间距缩小至1微米级,但需重新设计互连架构以匹配新电气特性。

研究目标
开发下一代互连方案UCle-3D,实现从130微米至1微米凸点间距的全范围支持,并在3D堆叠中达到或超越单芯片系统(SoC)的能效与可靠性。


研究流程与方法

1. UCIe 1.0架构分析
- 研究对象:现有UCIe 1.0标准的两类封装(标准封装UCle-S与先进封装UCle-A),分析其物理层协议、时钟架构( forwarded-clock)及链路修复机制。
- 关键限制:传统并行I/O结构在凸点间距<10微米时,因串行化/解串行(SerDes)电路导致能效下降。

2. UCIe-3D架构设计
- 电路简化:取消D2D适配层,直接由网络片上控制器(NoC)驱动互连,采用单向全双工数据通道,时钟频率降至芯片内部原生频率(如4 GT/s)。
- 容错机制:通过子集群(subcluster)冗余设计(每25个子集群含4个备用通道)实现制造缺陷与运行时错误的修复(图2c)。
- 静电防护:针对3微米以下间距提出5V CDM(charged-device model)ESD方案,未来可降至0V以节省面积。

3. 性能建模与验证
- 带宽密度公式:推导理论值(公式2)与实际值(公式3),计入电源/地线开销(35%-50%)与修复冗余(10%)。
- 能效测试:在Intel工艺节点上实测,3微米间距时功耗低至0.015 pJ/b(图5)。
- 可靠性分析:通过误码率(BER)模型证明10⁻³⁰的BER可满足100 TB/s总带宽下的可靠性需求(公式8-13)。

4. 对比实验
- 基准对象:传统2D互连(如Intel Sapphire Rapids CPU)与单芯片SoC。
- 结果:在512核3D网格中,UCle-3D的延迟降低43%,二分带宽提升4倍(图6)。


主要结果

  1. 带宽密度突破
    在1微米凸点间距下,实际带宽密度达225,539 GB/s·mm⁻²(公式6),较UCle 1.0提升2个数量级(图4)。

  2. 能效优化
    通过降低频率与简化电路,3D互连的能效优于传统高频方案。例如,1微米间距下采用分数频率(FNF, 1 GT/s)时功耗仅0.01 pJ/b(图5b)。

  3. 可靠性验证
    结合纠错码(137,128 SEC-DED),即使BER为10⁻²⁷时,系统故障率(FIT)仍低于10⁻¹⁴(公式12-13)。


结论与价值

科学价值
- 提出首个支持1微米凸点间距的3D芯粒互连架构,填补了异构集成中高密度互连的技术空白。
- 证明“降低频率以提升能效”的反直觉设计范式在3D封装中的可行性。

应用前景
- 为下一代HPC(如AI加速器)、内存立方体(如HBM3)提供开放互连生态。
- 支持光学芯粒(optical chiplets)通过UCIe实现机架级可组合系统(图2e)。


研究亮点

  1. 方法创新:首创“NoC直驱”物理层架构,取消传统SerDes与D2D适配器,减少70%逻辑延迟。
  2. 技术突破:实现从130微米至1微米的全范围凸点间距支持,带宽密度曲线拟合误差%(图4c)。
  3. 跨学科融合:结合封装工艺(混合键合)、电路设计(低电压时钟分配)与架构优化(分布式修复)。

其他价值

  • 设计自动化需求:指出未来需开发支持3D芯粒混合布局的EDA工具(如时序收敛算法)。
  • 热管理挑战:3D堆叠的热点功率密度可能需背面供电(backside power delivery)技术协同优化。

(全文约2,200字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com