分享自:

DevelSet: 用于即时掩模优化的深度神经水平集方法

期刊:IEEE Transactions on Computer-Aided Design of Integrated Circuits and SystemsDOI:10.1109/TCAD.2023.3286262

学术研究报告:DevelSet - 用于即时掩模优化的深度神经水平集方法

一、 研究作者、机构与发表信息 本项研究的主要作者为陈国进(Guojin Chen)、余子洋(Ziyang Yu)、刘洪铎(Hongduo Liu)、马宇哲(Yuzhe Ma,IEEE会员)和余备(Bei Yu,IEEE高级会员)。他们分别来自香港中文大学计算机科学与工程学系和香港科技大学(广州)微电子学域。该研究成果以学术论文的形式发表于IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems期刊,具体为2023年12月出版的第42卷第12期,论文标题为“DevelSet: Deep Neural Level Set for Instant Mask Optimization”。

二、 学术背景与研究目标 本研究属于集成电路(IC)设计自动化(EDA)领域,具体聚焦于半导体制造中的光刻技术,特别是光学邻近效应修正(Optical Proximity Correction, OPC)与逆光刻技术(Inverse Lithography Technique, ILT)。随着半导体工艺节点不断缩小,特征尺寸持续下降,光学邻近效应日益显著,导致晶圆上的图形打印质量下降,影响芯片良率。传统的OPC方法,无论是基于规则还是基于模型的方法,在处理先进节点下复杂、精细的图形时,面临着计算成本高昂、优化效率低下的挑战。ILT将掩模优化视为一个逆成像问题,能够生成高质量的曲线掩模,但其计算过程耗时且计算开销巨大,同样难以满足工业界对效率和可制造性的双重需求。

近年来,基于深度神经网络(DNN)的方法因其显著的速度优势和可比的掩模打印质量,逐渐成为OPC研究的主流。然而,现有的方法,无论是基于像素的ILT还是基于水平集(Level Set)的ILT,都存在各自的局限性。基于像素的方法(参数化方法)生成的掩模边界可能产生不必要的孤立斑点或锯齿状、曲折复杂的边缘,增加了掩模制造的复杂性。而基于水平集的ILT方法虽然能通过隐式表示自然地处理复杂拓扑变化并产生更平滑的边界,但由于水平集演化计算量大,其潜力未被充分挖掘。

基于上述背景,本研究旨在解决两个核心问题:1)如何结合水平集方法的优势(边界平滑、拓扑处理能力强)与深度学习的强大能力,实现高质量的掩模优化;2)如何通过GPU加速和算法创新,大幅提升水平集方法的计算效率,使其满足“即时”优化的工业需求。因此,本研究的目标是提出一个名为DevelSet的新型掩模优化框架,该框架利用深度神经网络和GPU加速的水平集优化器,实现端到端的快速、高打印质量、低复杂度的掩模优化。

三、 详细研究流程与方法 DevelSet框架是一个深度融合了深度神经网络(DNN)和GPU加速水平集优化的联合优化范式。其工作流程主要包含三个核心部分:CUDA加速的截断符号距离函数(TSDF)转换、DevelSet网络(DSN)和DevelSet优化器(DSO)。

1. 核心组件与流程概述: 整个流程始于输入的目标版图(Target Image)。首先,通过一个GPU加速的TSDF转换模块,将二值化的目标版图快速转换为一个水平集函数(Level Set Function, LSF)的初始表示φ₀。这个φ₀随后被送入DevelSet网络(DSN)。DSN是一个基于Transformer架构的多分支神经网络,它同时执行三个预测任务: * 水平集分支:预测一个准最优的初始水平集函数φ₀,θ,为后续优化提供一个更好的起点,有助于DSO跳出局部最优并加速收敛。 * 调制分支:预测一个权重注意力矩阵Mθ,用于在DSO的演化过程中,有选择性地调节曲率项对掩模边界的影响,以补偿引入曲率项可能带来的打印质量损失。 * 参数选择器:根据输入版图的特征,自动选择一组最优的DSO演化参数(如曲率权重λ、CFL条件数η等),替代传统的手动参数调优。

DSN的输出(φ₀,θ, Mθ 和 最优参数集)被馈送到DevelSet优化器(DSO)。DSO是一个完全在GPU上运行的迭代式水平集优化器。它接收DSN提供的初始化信息,并执行基于水平集演化的掩模优化。其演化方程在传统基于逆光刻梯度的运动项基础上,创新性地引入了曲率项,以控制边界平滑度,降低掩模复杂度。DSO利用CUDA并行计算能力,高效地执行水平集函数更新、曲率计算和光刻模拟等所有计算密集型任务。经过数次迭代演化后,最终的水平集函数通过零平面截取(Heaviside函数)得到优化后的掩模图案。

2. 关键技术细节: * DevelSet优化器(DSO)的创新: * 改进的水平集表示:采用截断符号距离函数(TSDF) 而非标准SDF作为水平集函数,通过设定上下界(du=900, dl=-100)来稳定优化过程,防止函数值过大导致训练不稳定。 * 曲率项的引入:在水平集演化方程中加入了曲率项 κ = λMθ |∇φ| div(∇φ/|∇φ|)。其中,div(∇φ/|∇φ|) 计算边界曲率,λ是权重,Mθ是DSN调制分支预测的权重矩阵。该项能惩罚高曲率区域,促使边界平滑,从而减少掩模的制造复杂性(如降低碎裂曝光次数)。 * 完全GPU加速实现:研究团队开发了一套完整的CUDA内核函数,用于高效计算TSDF、几何梯度(∇φ)、曲率(κ)以及最关键的光刻模拟。特别是,他们将整个光刻模拟流程(包括光学卷积和光阻模型)移植到GPU上,并优化了FFT/IFFT操作,避免了CPU与GPU之间昂贵的数据传输,实现了计算过程的完全并行化。

  • DevelSet网络(DSN)的设计

    • 骨干网络:采用视觉Transformer(ViT) 作为骨干网络,因其在捕捉图像全局特征方面优于传统的卷积神经网络(CNN),这对于理解版图的全局上下文信息至关重要。
    • 多分支输出:网络具有三个解码头,分别对应上述三个预测任务。水平集分支和调制分支的监督信号通过预训练获得:使用DSO对大量训练样本进行优化,得到对应的“地面真实”水平集函数φ_gt和最优调制矩阵M_gt,用于训练DSN。
    • 参数选择器:这是一个基于Transformer的多任务学习模型。输入是版图图像,输出是针对该特定版图最优的DSO参数组合。训练时,对每个训练图像枚举多组参数运行DSO,选择性能最佳的一组作为该图像的标签,从而训练网络学习从版图特征到最优参数的映射。
  • 端到端联合优化:在DSN预训练完成后,整个DevelSet框架(DSN + DSO)可以进行端到端的联合优化。DSN提供智能化的初始化和参数配置,DSO进行快速、精确的迭代演化,两者协同工作,共同实现高性能的掩模优化。

  • 适应大规模版图:针对工业级大规模版图,研究采用了“滑动窗口”策略。将大版图切割成重叠的小块(例如2048x2048像素),每块包含核心区域和边界环绕区域。分别对每个小块应用DevelSet优化,最后仅拼接核心区域的优化结果,以最小化边界效应,实现全芯片规模的掩模优化。

四、 主要研究结果 实验部分基于ICCAD 2013竞赛的基准数据集和工业M1层设计(32纳米工艺节点)进行,并与当时最先进的方法进行了全面对比,包括基于生成对抗网络的PGAN-OPC、基于水平集的GLS-ILT和基于神经网络的Neural-ILT。

1. 掩模打印质量与复杂度比较: * 打印质量指标:使用平方L2误差(衡量打印图形与目标图形的像素级差异)和工艺窗口偏差带(PVBand,衡量在不同工艺条件下打印图形的稳定性,面积越小越稳健)作为主要评价指标。 * 实验结果:DevelSet(特别是结合了Transformer参数选择器的版本DevelSet-TFPS)在所有对比方法中取得了最佳的打印质量。具体而言,与PGAN-OPC和Neural-ILT相比,DevelSet-TFPS的L2误差分别降低了6.1%和2.3%,PVBand面积分别减少了7%和14.2%。即使与此前最好的水平集方法GLS-ILT相比,L2误差和PVBand也分别有2.6%和7.1%的改进。这表明DevelSet在保证图形保真度和工艺稳健性方面具有显著优势。 * 掩模复杂度指标:使用掩模碎裂曝光次数(Shot Count)来评估掩模的制造复杂度。DevelSet-TFPS生成的掩模其Shot Count低于PGAN-OPC和GLS-ILT(分别减少5.7%和44.8%),但略高于专门针对复杂度进行优化的Neural-ILT。文章指出,Shot Count指标本身存在局限性(它将掩模切割为小矩形计数,边缘越平直次数越少,但这不完全符合工业实际),但可视化结果清晰显示,DevelSet生成的掩模边界更平滑,孤立瑕疵更少。 * 边缘放置误差(EPE):在大多数测试案例中,DevelSet-TFPS也取得了优于或与其他学习型方法相当的EPE值,平均EPE为7.3,为对比方法中最低。

2. 运行时间性能比较: 运行时间(Turn-Around Time, TAT)是衡量掩模优化引擎实用性的关键。实验结果显示,DevelSet框架具有压倒性的速度优势。与需要传统优化器微调的PGAN-OPC相比,DevelSet实现了约300倍的加速;与仅部分使用GPU加速的GLS-ILT相比,加速比达到约100倍;即使与同为深度学习加速的SOTA方法Neural-ILT相比,DevelSet也实现了约10倍的加速。DevelSet-TFPS版本的平均运行时间约为1.63秒(基础DevelSet为1.11秒),在极小的性能开销下进一步提升了打印质量,真正实现了“即时”掩模优化。

3. 消融实验分析: 研究通过一系列消融实验验证了各个组件的有效性: * 曲率项:在DSO中引入曲率项后,虽然L2和PVBand略有上升(这是打印质量与复杂度之间的权衡),但掩模复杂度(Shot Count)显著下降,总体成本函数(综合L2、PVBand和Shot Count)降低了434点,证明了曲率项在控制掩模复杂性方面的价值。 * 调制分支:加入调制分支后,总体成本函数大幅降低了698点,主要改善体现在打印质量(L2和PVBand)上。这证实了调制分支能够有效补偿曲率项带来的打印质量损失,通过注意力机制有选择地应用曲率平滑。 * DSN网络:使用DSN为DSO提供初始化解后,总体成本函数进一步降低了1038点,且Shot Count更少。这表明DSN预测的优质初始化能帮助优化过程找到更优解,并加速收敛(减少DSO迭代次数)。 * Transformer骨干与参数选择器:将DSN的骨干网络从CNN替换为Transformer,性能得到提升。进一步加入参数选择器后,性能提升更为显著,总体成本函数降低了3043.5点,L2和PVBand分别改善了2%和4.1%。这证明了自动化参数选择对于提升框架整体性能至关重要。

4. 大规模版图实验结果: 在从FreePDK45设计套件生成的大规模版图(12000x12000像素)上的测试表明,DevelSet-TFPS能够有效处理大规模布局,且与GLS-ILT相比,在大版图上仍能取得10%的L2误差减少和12.9%的PVBand减少,证明了其方法的可扩展性。

五、 研究结论与价值 本研究成功提出了DevelSet,一个基于深度神经水平集的掩模优化框架。该框架通过将隐式水平集表示与深度学习和GPU加速计算相结合,有效解决了传统ILT方法在速度、打印质量和掩模可制造性之间难以平衡的难题。

  • 科学价值

    1. 方法创新:首次将水平集方法深度集成到深度神经网络中,实现了一个端到端可训练的联合优化流程,为计算光刻领域提供了新的研究范式。
    2. 算法创新:在水平集演化中引入曲率项并辅以神经网络调制的机制,为同时优化打印保真度和掩模复杂度提供了新思路。
    3. 模型创新:设计了基于Transformer的多分支网络架构,并创新性地将Transformer用于领域特定的参数选择任务,提升了模型的性能和自动化水平。
  • 应用价值

    1. 高性能:在主流测试基准上取得了当时最先进的掩模打印质量(L2, PVBand)。
    2. 高效率:实现了秒级(约1秒)的掩模优化速度,相比之前的方法有数量级的提升,满足了工业界对快速迭代的需求。
    3. 高可制造性:生成的掩模边界平滑,复杂特征少,有利于降低掩模制造成本和难度。
    4. 自动化与智能化:通过参数选择器减少了对手动调参的依赖,提高了工具的易用性和智能化水平。

研究者预期,这种增强的水平集技术,结合CUDA/DNN加速的联合优化范式,将对工业界的掩模优化解决方案产生重大影响。

六、 研究亮点 1. 首创性融合:首次实现了水平集方法与深度神经网络的端到端深度融合,用于掩模优化,开辟了新的技术路径。 2. 双重加速架构:创新性地提出了“神经网络预测初始化 + GPU加速迭代优化”的双重加速架构,同时利用了神经网络的快速推理能力和GPU的并行计算能力,实现了速度和精度的双重突破。 3. 曲率控制与调制机制:在水平集ILT中首次引入曲率项来控制掩模复杂度,并配套设计了一个由神经网络预测的调制矩阵来动态调节曲率项的影响,巧妙地平衡了打印质量与制造复杂性。 4. 全GPU加速实现:将水平集初始化、曲率计算、光刻模拟等所有关键计算步骤全部移植到GPU上,并通过工程优化极大减少了数据搬运开销,是运行时间取得巨大优势的关键。 5. 领域自适应的参数选择器:利用Transformer模型为优化器自动选择最优参数,提升了框架的整体性能和自动化程度,减少了对专家经验的依赖。

七、 其他有价值的内容 论文还对水平集方法的基本原理、光刻模拟模型、Transformer注意力机制等背景知识进行了清晰的阐述,使得工作不仅具有创新性,也具有很好的可读性和完整性。此外,针对大规模版图的适配方案展示了该框架应用于实际工业场景的潜力。实验部分设计严谨,不仅进行了全面的横向对比,还通过细致的消融实验深入分析了每个组件的贡献,增强了结论的说服力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com