扩散模型在图像合成上优于生成对抗网络

分享自：
扩散模型在图像合成上优于生成对抗网络

期刊:NeurIPS
作者与发表情况 本研究的核心作者是来自OpenAI的Prafulla Dhariwal和Alex Nichol（标注为同等贡献）。该研究于2021年在第35届神经信息处理系统大会（NeurIPS 2021）上发表，论文标题为“Diffusion Models Beat GANs on Image Synthesis”。
学术背景与研究目标 本研究属于人工智能领域的生成式模型（Generative Models）方向，具体聚焦于图像合成（Image Synthesis）任务。在论文发表之时，生成对抗网络（Generative Adversarial Networks, GANs）在图像生成质量方面占据着主导地位，常被视为标杆。然而，GANs存在一些固有的缺点，例如训练不稳定、模式塌陷（Mode Collapse，即多样性不足），以及难以平衡生成样本的保真度（Fidelity）与多样性（Diversity）。
与此同时，另一类基于似然的模型（Likelihood-based Models），包括扩散模型（Diffusion Models），因其训练目标稳定、能更好地覆盖数据分布（即多样性高）而受到关注。但当时扩散模型在生成图像的视觉保真度上仍落后于GANs。
本研究旨在解决这一差距，核心目标有两个：首先，通过系统性地探索和改进扩散模型的架构，提升其无条件图像合成的样本质量；其次，提出一种能够有效权衡样本多样性与保真度的新方法，使其在条件图像合成任务上也能超越GANs。研究的主要动机是将GANs在高质量生成方面的优势与扩散模型在分布覆盖和稳定训练方面的优势相结合。
详细研究流程 研究流程主要分为三个核心部分：架构改进、分类器引导（Classifier Guidance）方法的提出与验证，以及最终的综合评估与对比。
第一部分：扩散模型架构的系统性改进 研究团队首先将改进重点放在模型架构上。他们以Ho等人（2020年）提出的去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）为基础，并采纳了Nichol和Dhariwal（2021年）关于学习反向过程方差和混合训练目标的改进。在此之上，他们在ImageNet 128×128数据集上进行了广泛的消融研究（Ablation Study），以评估不同架构修改的影响。
具体的研究步骤和对象包括： 1. 基准模型：一个基于U-Net架构的扩散模型，具有特定深度、宽度和注意力层配置。 2. 架构变量测试：研究人员逐一测试了多项调整，包括：增加模型深度或宽度（保持总参数量大致不变）、增加注意力头的数量、在更多分辨率（32x32，16x16，8x8）上使用注意力机制、采用BigGAN风格的残差块（Residual Block）进行上下采样、以及对残差连接进行重新缩放。 3. 性能评估：每个修改后的模型在ImageNet 128×128数据集上进行训练，并在70万次和120万次迭代时，使用Fréchet Inception Distance（FID，感知距离）指标进行评估。FID是衡量生成模型样本质量的综合性指标，数值越低越好。 4. 注意力机制优化：进一步研究了注意力头的配置，比较了“恒定注意力头数”和“恒定每头通道数”两种策略。通过实验发现，更多的注意力头或更少的每头通道数（即更细粒度的注意力）有助于提升性能。 5. 条件注入方式：验证了自适应组归一化层（Adaptive Group Normalization, AdaGN）的有效性。该层将时间步和类别嵌入信息注入到每个残差块中，实验表明移除该层会导致FID显著变差（下降2.02）。
通过这些系统性的消融实验，研究团队确定了最优的架构配置：使用2个残差块每分辨率，每个注意力头64个通道，在32、16、8三个分辨率上应用多头注意力，采用BigGAN残差块进行上下采样，并使用AdaGN层来融合时间步和类别信息。这一改进后的架构被简称为ADM（Ablated Diffusion Model）。
第二部分：分类器引导方法的提出与实验 为了在条件图像合成中实现对保真度和多样性的主动控制，研究团队提出并系统研究了“分类器引导”技术。这一部分的研究流程如下：
理论基础与算法推导：研究借鉴了Sohl-Dickstein等人（2015年）和Song等人（2020年）的思路，推导了在扩散采样过程中利用分类器梯度来引导样本朝向特定类别生成的方法。具体地，他们为标准的扩散采样算法（DDPM）和更快的确定性采样算法DDIM分别导出了对应的引导采样算法（见论文算法1和2）。
方法核心：在采样过程的每一步，除了使用扩散模型预测的去噪方向，还加上一个来自预训练分类器（对带噪图像进行分类）的梯度项。这个梯度项指向使得分类器更确信样本属于目标类别y的方向。梯度的大小由一个可调节的“引导尺度”（gradient scale）参数s控制。
分类器训练：为了在大规模数据集（如ImageNet）上应用此方法，研究团队专门训练了用于引导的分类器。分类器的架构是扩散模型U-Net的下采样主干，并在8x8特征层后接一个注意力池化层（Attention Pooling）来输出类别概率。分类器在与扩散模型相同的噪声分布上进行训练，并加入随机裁剪以防止过拟合。
引导效果分析：研究团队在无条件（Unconditional）和条件（Conditional）扩散模型上分别测试了分类器引导。 尺度效应：他们发现，引导尺度s=1时，生成的样本在分类器看来类别概率正确（约50%），但视觉上并不符合目标类别。增大s（例如到10.0）则能生成类一致性极高的图像，但其多样性会降低。理论分析表明，增大s等价于采样来自一个更加尖锐化的分类器分布 p(y|x)^s，从而聚焦于分布的模式（mode），以牺牲多样性为代价换取更高的保真度。
定量评估：在ImageNet 256×256的条件模型上，无引导时FID为10.94；加入分类器引导（s=1.0）后FID大幅提升至4.59；进一步增大引导尺度（s=10.0）会以牺牲部分多样性为代价，将FID调整到9.11，同时精确度（Precision）和起始分数（Inception Score, IS）显著提高，而召回率（Recall）下降。这清晰地展示了一种平滑的保真度-多样性权衡曲线。
与GAN方法的对比：研究还将分类器引导与BigGAN中常用的“截断技巧”（Truncation Trick）进行对比，发现分类器引导在FID与IS的权衡曲线上普遍优于BigGAN-deep，显示了其作为控制手段的有效性。
第三部分：综合评估与最终结果 最后，研究团队在多个标准图像生成基准上评估了结合架构改进（ADM）和分类器引导（ADM-G）的扩散模型，并与当时最先进的模型进行全面对比。
评估任务与对象： 无条件生成：在LSUN卧室、马、猫三个类别上进行评估，对比模型包括DDPM、iDDPM、StyleGAN、StyleGAN2等。
条件生成：在ImageNet 64x64， 128x128， 256x256， 512x512等多个分辨率上进行评估，主要对比对象是当时公认最强的条件生成模型BigGAN-deep，以及VQ-VAE-2、DCTranformer等其他先进模型。
评估指标：主要使用FID作为核心指标，同时辅以空间FID（sFID）、精确度（Precision）、召回率（Recall）和起始分数（IS）从多个维度评估样本质量。
高效采样验证：为了缩小扩散模型在采样速度上与GANs的差距，研究还测试了使用DDIM采样器、仅用25步采样时的性能。结果显示，即便只用25步，ADM-G在ImageNet 256x256上也能达到FID 5.44，与需要数百次前向传播的BigGAN-deep（FID 6.95）相媲美甚至更优。
结合上采样：研究进一步探索了将分类器引导与两阶段上采样扩散模型（Upsampling Diffusion Model）结合。具体做法是，用引导的扩散模型生成低分辨率图像，再用一个独立的、条件于低分辨率图像的上采样扩散模型生成高分辨率图像。这种ADM-G + ADM-U的组合在ImageNet 512x512上取得了最佳的FID 3.85。
主要研究结果 1. 架构改进的有效性：消融研究结果（论文表1、表2）显示，每一项架构改进（更多注意力头、多分辨率注意力、BigGAN残差块、AdaGN层）都对降低FID有贡献，组合起来效果更佳。这使得ADM在LSUN无条件生成任务上超越了StyleGAN2，在ImageNet 64x64任务上也超越了BigGAN-deep。 2. 分类器引导的强大控制能力：实验数据（论文表3、图3）清晰表明，通过调节引导尺度s，可以平滑、连续地在样本的精确度（保真度）和召回率（多样性）之间进行权衡。引导后的条件扩散模型（ADM-G）在所有高分辨率ImageNet任务上均取得了新的最优FID分数（128x128: 2.97， 256x256: 4.59， 512x512: 7.72），显著超越了BigGAN-deep。 3. 全面的性能领先：最终的综合评估结果（论文表4）表明，ADM和ADM-G在LSUN和ImageNet的所有分辨率任务上，几乎都取得了当时最好的FID和sFID分数。同时，扩散模型在召回率指标上普遍高于GANs，证明其保持了更好的分布覆盖和样本多样性。图4的视觉对比也显示，ADM-G的样本在质量上与BigGAN-deep相当，但包含了更多样的模式（如不同角度、构图）。 4. 高效采样可行性：使用DDIM并仅需25步采样，ADM-G就能达到与BigGAN-deep相当甚至更优的性能，大大减少了扩散模型采样所需的计算步骤。
研究结论与价值 本研究的主要结论是：通过精心的架构设计和新颖的分类器引导方法，扩散模型能够在图像合成质量上全面超越当时最先进的生成对抗网络（GANs）。
其科学价值体现在： 1. 方法论贡献：提出并验证了分类器引导这一简单而强大的技术，为基于似然的生成模型提供了一种全新的、可控的保真度-多样性权衡机制。这项工作弥合了GANs（高保真）与似然模型（高覆盖）之间的性能鸿沟。 2. 性能标杆：在多个权威基准上确立了扩散模型作为图像合成新标杆的地位，推动了生成式模型研究重心的转移。 3. 架构洞察：通过系统的消融研究，为扩散模型（尤其是U-Net架构）的设计提供了宝贵的经验性指导。
其应用价值在于： 1. 高质量可控生成：分类器引导技术使得用户可以通过一个简单的缩放因子控制生成结果的“锐利度”或“创造性”，在艺术创作、设计等领域具有应用潜力。 2. 稳定训练：相比于GANs，扩散模型训练更稳定，可重复性更强，降低了研究和工程应用的门槛。 3. 与其他技术兼容：研究表明，分类器引导可以与上采样模型等技术良好结合，为实现更高分辨率的图像生成提供了可行的技术路径。
研究亮点与创新 1. 历史性突破：这是首次有研究在图像合成这一核心任务上，系统性地证明扩散模型在主流评估指标上能够全面超越GANs，具有里程碑意义。 2. 分类器引导的创新性：该方法构思巧妙，计算高效（只需在采样时添加梯度项），效果显著，为生成模型的控制提供了一种新颖且强大的范式。 3. 系统性研究方法：从架构的精细化消融，到引导机制的理论推导与实证分析，再到与最先进模型的全面基准测试，整个研究过程严谨、系统、完整。 4. 兼顾质量与速度：不仅追求最高的生成质量，也关注采样效率，验证了在少量步数下达到SOTA性能的可能性，为实际应用铺平了道路。
其他有价值内容 论文还讨论了研究的局限性（如采样速度仍慢于GANs、缺乏显式语义潜空间）和未来的工作方向（如模型蒸馏以加速、扩展到文本等无标签数据的引导）。同时，论文也探讨了生成模型可能带来的负面社会影响（如制造虚假信息），体现了研究者的社会责任意识。附录部分包含了详细的实验设置、计算成本分析、最近邻检查等丰富信息，确保了研究的可复现性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问