A-SDM：通过冗余消除与性能优化加速稳定扩散模型

分享自：
A-SDM：通过冗余消除与性能优化加速稳定扩散模型

期刊:IEEE Transaction on Image Processing
本文旨在介绍一篇题为“A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization”的学术论文。该研究由Jinchao Zhu（清华大学自动化系）、Yuxuan Wang（伦敦帝国理工学院计算系）、Xiaobing Tu、Siyuan Pan、Pengfei Wan（快手Y-Tech）共同完成，目前作为预印本发布于arXiv平台，提交日期为2024年3月6日，并计划投稿至《IEEE Transaction on Image Processing》期刊。
一、 研究背景与目标
本研究隶属于人工智能领域的生成式模型优化方向，具体聚焦于文本到图像（Text-to-Image, T2I）生成模型。Stable Diffusion Model (SDM) 作为当前最流行的T2I模型之一，因其高质量的生成效果被广泛应用于图像风格转换、视频生成、图像修复等任务。然而，SDM的核心——U-Net网络结构庞大，拥有数十亿参数，其迭代去噪过程计算需求极高，这给计算资源带来了巨大负担，也阻碍了SDM在移动设备等资源受限环境中的部署与应用。
尽管已有一些优化方法，如通过蒸馏减少采样步数、模型蒸馏以及网络量化等，但这些方法大多保留了原始的网络架构。针对SDM模型架构本身进行精简和优化的研究相对较少。因此，本研究的目标在于：探索SDM网络中的计算冗余部分，通过结构优化和算法改进，在保持模型生成性能基本不变的前提下，显著提升其推理速度，从而降低其计算成本，推动其在更广泛平台上的应用。
二、 研究方法与详细流程
本研究提出了一套名为A-SDM的综合性模型加速方案，主要包括四个核心技术创新和一个系统的训练策略。整个研究流程围绕对SDM（特别是其U-Net部分）的分析、压缩、增强和加速展开。
1. 渐进式孵化策略 由于从头训练一个稳定的扩散模型需要巨大的计算资源，直接进行架构修改和再训练成本高昂。为此，研究者设计了一种“渐进式孵化”策略，以分阶段、低成本的方式训练压缩后的模型。 * 流程详解： * 第一步：训练压缩模型。研究者首先对原始SDM的U-Net进行“剪枝”，移除了每个Block（块）中被认为冗余的部分层（论文图4中红框标出的部分），得到一个参数更少、结构更简单的“压缩U-Net”。这个压缩模型作为初始的学生模型进行训练。 * 第二步：模型重组与再蒸馏。将第一步得到的“压缩U-Net”与原始完整的“教师U-Net”进行组合，构建一个新的“学生模型”。这个组合模型的独特之处在于，其中来自原始教师模型的部分参数是冻结（frozen） 的，不参与训练更新；而来自压缩模型的部分参数则是可训练的。这样，在第二阶段的知识蒸馏训练中，计算负担主要落在可训练的小部分参数上，极大地节省了计算资源。这一策略允许研究者仅使用相对较少的数据（22万图像-文本对）和计算资源（26个A100 GPU天）进行有效训练。
2. 跨层多专家条件卷积 研究发现，在U-Net的浅层网络中，卷积运算对细节优化至关重要，而注意力机制则相对冗余。为了弥补因剪枝导致的模型容量损失，特别是在浅层，研究者提出了跨层多专家条件卷积。 * 流程详解： * 参数继承与增强：该方法的核心是从原始教师模型的特定Block（如up-block3和dn-block0）中，收集每一层3x3卷积的权重。 * 多专家融合：将这些收集来的卷积权重作为“专家”之一，与随机初始化的其他“专家”权重相结合，构成一个多专家条件卷积层。 * 动态加权：在推理时，根据输入条件动态计算各专家权重的混合系数，从而为剪枝后的学生模型相应层提供更强的特征表示能力。如表1所示，在Base、Small、Tiny三种不同规模的压缩模型上引入CLME-CondConv后，FID（弗雷歇距离，越低越好）、IS（初始分数，越高越好）、CLIP（图文匹配度，越高越好）等指标均有改善，证明了该方法能有效维持模型性能。
3. 全局-区域交互注意力 注意力机制是Transformer单元中的计算瓶颈。为了加速这一部分，研究者提出了全局-区域交互注意力。该方法旨在优化注意力计算，降低其复杂度，从而提升速度。虽然论文未展开其具体算法细节，但指出它是针对计算密集的注意力部分设计的加速方案。
4. 语义感知监督 为了在知识蒸馏过程中更好地对齐教师模型和学生模型的输出，不仅是在像素或特征层面，更是在语义层面，研究者引入了语义感知监督。 * 流程详解： * 多层面损失：在关键的第二步蒸馏过程中，损失函数不仅包含常规的去噪损失和教师-学生模型输出之间的蒸馏损失。 * 中间层对齐：特别添加了对U-Net中间关键模块（如mid-block）输出的监督，以加强网络深层语义特征的对齐。 * VGG感知损失：在教师模型和学生模型的末端，接入一个冻结的预训练VGG网络。将两者的去噪特征分别输入该VGG网络，计算其深层特征之间的差异作为额外的损失项。如图6所示，这种“VGG损失”旨在从人类视觉感知和高级语义层次上对齐特征，增强学生模型的语义感知能力。
5. 多U-Net动态处理 在图像生成的推理阶段，研究者提出了一种动态策略：在去噪过程的前期（如前10步）使用较小的、快速的U-Net（如Base-unet）快速生成图像原型；在去噪过程的后期（如后15步）切换回较大的、性能更强的U-Net（如原始SD-unet）进行细节优化和精修。表3的实验结果表明，这种“小模型开头，大模型收尾”的策略（s1: base10step + sd15step）取得了最佳的综合性能，在速度和效果之间取得了良好平衡。
三、 主要实验结果
研究进行了详尽的实验来验证所提方法的有效性，主要评估指标包括FID、IS和CLIP分数，均在零样本MS-COCO 256x256数据集上进行。
组合模型性能：如表2所示，不同的U-Net组合结构（M1, M2, M3…）性能差异显著。其中，M2组合在冻结部分教师参数的情况下，取得了FID 11.84， IS 36.56， CLIP 0.2958的优异结果，甚至在某些指标上超越了原始SD-Unet（FID 12.832）。这证明了渐进式孵化策略结合结构剪枝的有效性。
整体对比：如表4所示，本研究提出的最佳模型（M2）在与当前其他先进方法的对比中表现突出。在仅使用22万训练数据（远少于原始SDM的20亿数据）和少于26个A100 GPU天的训练资源下，其性能与需要数千GPU天训练的全量模型（如SDM-v1.4）相当甚至更优，显著优于同期的其他蒸馏压缩方法（如BK-SDM系列）。
加速效果：最终，经过A-SDM方法优化后的模型，其U-Net部分的推理速度提升了22%，整体生成速度提升了19%。同时，定性的风格化图像生成测试（如图7所示）表明，优化后的模型在视觉质量上非常接近原始模型。
四、 研究结论与价值
本研究成功探索并实现了一种高效的Stable Diffusion模型压缩与加速方法。通过在有限的计算资源下，系统地分析并优化模型架构中的冗余部分，结合创新的渐进式训练策略、容量增强模块、注意力加速机制和语义级监督，A-SDM能够训练出与原始SD模型性能相近的轻量级模型，并显著提升推理速度。
科学价值：该工作为大规模扩散模型的架构优化提供了新的思路和一套完整的技术路线图。它证明了通过对U-Net进行细致的结构分析和针对性改进（而非简单的全局压缩），可以在保持生成质量的同时实现显著的效率提升。提出的CLME-CondConv、GRI-Attention和语义感知监督等方法，对生成式模型的蒸馏与压缩领域具有借鉴意义。
应用价值：该研究极大地降低了高性能文本到图像生成模型的计算门槛和部署成本。19%的整体速度提升意味着更快的图像生成体验和更低的服务器负载，使得在消费级硬件或移动设备上运行高质量SDM成为可能，具有重要的实际应用前景。
五、 研究亮点
系统性架构优化：不同于以往侧重训练技巧或后处理的优化，本研究直击SDM计算瓶颈的核心——U-Net架构，进行了一次从分析、剪枝、增强到加速的完整、系统性优化。
渐进式孵化策略：这一训练策略的创新性在于，它通过冻结教师模型大部分参数、仅微调学生部分参数的方式，极大地降低了模型架构搜索和再训练的计算成本，使得在有限资源下进行深度模型改造成为可能。
多技术协同创新：研究并非依赖单一技术，而是将结构剪枝、参数继承（CondConv）、注意力优化、动态推理和高级语义监督等多种技术有机结合，形成了一个协同作用的解决方案，从不同角度共同保障了性能与效率的平衡。
显著的效率提升：在几乎不损失生成质量的前提下，实现了U-Net部分22%和整体19%的加速效果，并且训练数据量和计算资源需求远低于训练原始模型，展示了极高的优化效率。
详实的实验验证：论文通过大量的消融实验（如表1、2、3）和与前沿方法的对比实验（如表4），严谨地验证了每一个提出的组件的有效性，并确定了最佳的组合方案，结论扎实可信。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问