本文旨在介绍一篇题为“A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization”的学术论文。该研究由Jinchao Zhu(清华大学自动化系)、Yuxuan Wang(伦敦帝国理工学院计算系)、Xiaobing Tu、Siyuan Pan、Pengfei Wan(快手Y-Tech)共同完成,目前作为预印本发布于arXiv平台,提交日期为2024年3月6日,并计划投稿至《IEEE Transaction on Image Processing》期刊。
一、 研究背景与目标
本研究隶属于人工智能领域的生成式模型优化方向,具体聚焦于文本到图像(Text-to-Image, T2I)生成模型。Stable Diffusion Model (SDM) 作为当前最流行的T2I模型之一,因其高质量的生成效果被广泛应用于图像风格转换、视频生成、图像修复等任务。然而,SDM的核心——U-Net网络结构庞大,拥有数十亿参数,其迭代去噪过程计算需求极高,这给计算资源带来了巨大负担,也阻碍了SDM在移动设备等资源受限环境中的部署与应用。
尽管已有一些优化方法,如通过蒸馏减少采样步数、模型蒸馏以及网络量化等,但这些方法大多保留了原始的网络架构。针对SDM模型架构本身进行精简和优化的研究相对较少。因此,本研究的目标在于:探索SDM网络中的计算冗余部分,通过结构优化和算法改进,在保持模型生成性能基本不变的前提下,显著提升其推理速度,从而降低其计算成本,推动其在更广泛平台上的应用。
二、 研究方法与详细流程
本研究提出了一套名为A-SDM的综合性模型加速方案,主要包括四个核心技术创新和一个系统的训练策略。整个研究流程围绕对SDM(特别是其U-Net部分)的分析、压缩、增强和加速展开。
1. 渐进式孵化策略 由于从头训练一个稳定的扩散模型需要巨大的计算资源,直接进行架构修改和再训练成本高昂。为此,研究者设计了一种“渐进式孵化”策略,以分阶段、低成本的方式训练压缩后的模型。 * 流程详解: * 第一步:训练压缩模型。研究者首先对原始SDM的U-Net进行“剪枝”,移除了每个Block(块)中被认为冗余的部分层(论文图4中红框标出的部分),得到一个参数更少、结构更简单的“压缩U-Net”。这个压缩模型作为初始的学生模型进行训练。 * 第二步:模型重组与再蒸馏。将第一步得到的“压缩U-Net”与原始完整的“教师U-Net”进行组合,构建一个新的“学生模型”。这个组合模型的独特之处在于,其中来自原始教师模型的部分参数是冻结(frozen) 的,不参与训练更新;而来自压缩模型的部分参数则是可训练的。这样,在第二阶段的知识蒸馏训练中,计算负担主要落在可训练的小部分参数上,极大地节省了计算资源。这一策略允许研究者仅使用相对较少的数据(22万图像-文本对)和计算资源(26个A100 GPU天)进行有效训练。
2. 跨层多专家条件卷积 研究发现,在U-Net的浅层网络中,卷积运算对细节优化至关重要,而注意力机制则相对冗余。为了弥补因剪枝导致的模型容量损失,特别是在浅层,研究者提出了跨层多专家条件卷积。 * 流程详解: * 参数继承与增强:该方法的核心是从原始教师模型的特定Block(如up-block3和dn-block0)中,收集每一层3x3卷积的权重。 * 多专家融合:将这些收集来的卷积权重作为“专家”之一,与随机初始化的其他“专家”权重相结合,构成一个多专家条件卷积层。 * 动态加权:在推理时,根据输入条件动态计算各专家权重的混合系数,从而为剪枝后的学生模型相应层提供更强的特征表示能力。如表1所示,在Base、Small、Tiny三种不同规模的压缩模型上引入CLME-CondConv后,FID(弗雷歇距离,越低越好)、IS(初始分数,越高越好)、CLIP(图文匹配度,越高越好)等指标均有改善,证明了该方法能有效维持模型性能。
3. 全局-区域交互注意力 注意力机制是Transformer单元中的计算瓶颈。为了加速这一部分,研究者提出了全局-区域交互注意力。该方法旨在优化注意力计算,降低其复杂度,从而提升速度。虽然论文未展开其具体算法细节,但指出它是针对计算密集的注意力部分设计的加速方案。
4. 语义感知监督 为了在知识蒸馏过程中更好地对齐教师模型和学生模型的输出,不仅是在像素或特征层面,更是在语义层面,研究者引入了语义感知监督。 * 流程详解: * 多层面损失:在关键的第二步蒸馏过程中,损失函数不仅包含常规的去噪损失和教师-学生模型输出之间的蒸馏损失。 * 中间层对齐:特别添加了对U-Net中间关键模块(如mid-block)输出的监督,以加强网络深层语义特征的对齐。 * VGG感知损失:在教师模型和学生模型的末端,接入一个冻结的预训练VGG网络。将两者的去噪特征分别输入该VGG网络,计算其深层特征之间的差异作为额外的损失项。如图6所示,这种“VGG损失”旨在从人类视觉感知和高级语义层次上对齐特征,增强学生模型的语义感知能力。
5. 多U-Net动态处理 在图像生成的推理阶段,研究者提出了一种动态策略:在去噪过程的前期(如前10步)使用较小的、快速的U-Net(如Base-unet)快速生成图像原型;在去噪过程的后期(如后15步)切换回较大的、性能更强的U-Net(如原始SD-unet)进行细节优化和精修。表3的实验结果表明,这种“小模型开头,大模型收尾”的策略(s1: base10step + sd15step)取得了最佳的综合性能,在速度和效果之间取得了良好平衡。
三、 主要实验结果
研究进行了详尽的实验来验证所提方法的有效性,主要评估指标包括FID、IS和CLIP分数,均在零样本MS-COCO 256x256数据集上进行。
四、 研究结论与价值
本研究成功探索并实现了一种高效的Stable Diffusion模型压缩与加速方法。通过在有限的计算资源下,系统地分析并优化模型架构中的冗余部分,结合创新的渐进式训练策略、容量增强模块、注意力加速机制和语义级监督,A-SDM能够训练出与原始SD模型性能相近的轻量级模型,并显著提升推理速度。
五、 研究亮点