分享自:

基于双向多路Transformer的文本到图像生成研究

期刊:computational visual mediaDOI:10.26599/cvm.2025.9450377

本文介绍了一项由哈尔滨工业大学的包航博和朴松昊,以及微软亚洲研究院的董力和韦福如共同完成的原创性研究工作。该研究以《Text to Image Generation with Bidirectional Multiway Transformers》为题,发表于2025年4月的《Computational Visual Media》期刊(Vol. 11, No. 2)。本研究聚焦于人工智能领域的文本到图像生成(Text-to-Image Generation)任务,旨在探索通过一种解耦的模型设计和双向编码机制来提升生成模型的性能与推理效率。

一、 研究背景与目标

近年来,文本到图像生成领域取得了显著进展,涌现出如DALL-E、CogView、Parti和Muse等一系列代表性工作。这些方法通常利用图像标记器(Image Tokenizer)将输入图像转换为离散的视觉标记(Visual Tokens),然后使用Transformer等序列模型来学习从文本标记到视觉标记的映射关系,最后再将生成的视觉标记通过标记器解码回图像像素。根据模型编码和推理方式,现有方法主要分为自回归(Autoregressive)和非自回归(Non-Autoregressive)两大类。自回归方法(如DALL-E、Parti)使用单向解码器,在推理时逐个顺序生成标记,这导致了较慢的推理速度(例如生成256个标记需要256步)。非自回归方法(如Muse)则采用双向编码器,允许模型同时预测多个被遮蔽的标记,从而大幅减少推理所需的迭代步骤(如仅需24步),提升了效率。

然而,现有的非自回归方法大多采用参数共享的Vanilla Transformer(即普通Transformer)来同时处理文本和视觉两种不同模态的标记。这种共享参数的设计可能难以针对不同模态的特点进行优化。受多模态理解任务中研究成果的启发(例如使用不同参数处理不同模态可以提升性能),本研究团队认为,在基于编码器结构的文本到图像模型中,存在通过精心设计的解耦模型架构来提升性能的潜力。

因此,本研究的主要目标是:探索双向多路Transformer(Bidirectional Multiway Transformers)在文本到图像生成任务中的潜力和性能。研究旨在结合简洁高效解耦模型设计带来的性能提升,以及双向编码所提供的推理效率优势。具体而言,研究提出了一个包含两阶段的方法:首先,改进图像标记器,提出基于预训练视觉Transformer的VQGAN微调方法(VQGAN Finetuning),以获得更高质量的图像重建效果;其次,使用获得的高质量图像标记器,并采用双向多路Transformer作为核心生成模型,通过掩码视觉标记建模的方式进行训练,并利用其双向编码特性进行高效的迭代并行解码。

二、 详细工作流程

本研究的工作流程主要分为两个核心部分:图像标记器的改进与文本到图像建模。

第一部分:图像标记器改进——VQGAN微调 图像标记器的作用是在连续的像素空间和离散的视觉标记空间之间建立双向映射。本研究采用类似VIT-VQGAN的架构,使用视觉Transformer(ViT)作为编码器和解码器的基础网络。与以往使用随机初始化训练VQGAN不同,本研究遵循“预训练-微调”(Pretrain-Finetune)的主流范式,提出VQGAN微调方法。

  1. 第一阶段:编码器微调与码本学习

    • 初始化:使用一个在大规模数据上预训练好的视觉Transformer模型(如BEiT-3)来初始化标记器的编码器参数。解码器则采用与编码器结构相同的Transformer并随机初始化。
    • 训练:在ImageNet或CC-3M等数据集上,使用多种损失函数联合训练编码器、解码器和量化码本(Visual Vocabulary,大小设置为8192)。损失函数包括用于保证像素级重建的L2损失、用于提升感知质量的感知损失(Perceptual Loss)、用于增强细节真实性的基于块(Patch-based)的对抗损失(Adversarial Loss),以及用于提高码本利用率的多样性损失(Diversity Loss)。训练中采用了Gumbel-Softmax重参数化技术来学习离散码本。输入图像分辨率为256x256,被压缩为16x16(共256个)视觉标记。
    • 输出:此阶段得到一个初步的、基于BEiT-3初始化的图像标记器。
  2. 第二阶段:解码器微调

    • 动机:受先前研究启发,在码本优化并固定后,可以单独提升解码器的能力,从而获得更好的图像重建质量,最终有助于生成更高质量的图像。
    • 操作:固定第一阶段训练好的编码器和码本参数。丢弃第一阶段训练的解码器参数,改用更大规模的预训练视觉Transformer(如BEiT-3 Large)来重新初始化解码器参数。解码器的视觉标记嵌入层则随机初始化。
    • 训练:使用较高的学习率,仅对解码器参数进行微调。其他超参数与第一阶段类似。
    • 输出:最终得到高性能的图像标记器,文中称为VQGAN_BEiT-3。通过这种两阶段微调,模型能够利用强大预训练模型的视觉表征能力,显著提升从离散标记重建图像的质量。

第二部分:文本到图像建模——双向多路Transformer 这一部分的核心是使用多路Transformer作为双向编码器,学习从文本生成对应视觉标记。

  1. 输入表示:对于一个图像-文本对,文本通过SentencePiece模型处理成子词标记序列,并添加[ SOS ]和[ EOS ]标记。图像则通过上述VQGAN_BEiT-3标记器转换为16x16的视觉标记序列。在训练时,会按照从截断Arccos分布中采样的掩码比例,随机遮蔽部分视觉标记,并用[ MASK ]替代。这些文本标记和被掩码的视觉标记被拼接成一个长序列,并加上位置编码,作为模型的输入。

  2. 主干网络:多路Transformer编码器

    • 结构:采用多路Transformer作为编码器。其核心创新在于“解耦设计”:在自注意力(Self-Attention)模块和前馈网络(Feed-Forward Network)模块中,模型会根据当前处理的标记是文本还是视觉模态,动态选择不同的参数集进行计算。具体来说,有专门用于文本标记的查询、键、值、输出线性层及层归一化模块,也有专门用于视觉标记的对应模块。在前馈网络中,则分别使用语言专家网络和视觉专家网络处理不同模态的标记。
    • 初始化:使用在多模态任务上预训练的BEiT-3模型(其模型尺寸与当前任务匹配)的参数进行初始化。由于BEiT-3的预训练目标(恢复CLIP模型的潜表示)与文本到图像生成不同,因此这种初始化不意味着引入了有监督的文本-图像生成预训练。
    • 训练目标:模型被训练来预测那些被遮蔽的视觉标记。在最后一层输出后,对每个被掩码的位置使用一个Softmax分类器来预测其属于8192个视觉码本中的哪一个。训练目标是最大化被掩码位置视觉标记的对数似然。此外,由于VQGAN_BEiT-3可提供软标签(Soft Labels),本研究使用软标签而非硬性的独热编码(One-hot Labels)作为训练目标,这有助于模型学习视觉码本中不同标记之间的关系。
  3. 推理:迭代并行解码

    • 得益于双向编码的特性,模型在推理时可以采用非自回归的解码方式,极大提升效率。
    • 流程:(1) 初始时,所有视觉标记位置均被[ MASK ]覆盖。(2) 将文本标记和全掩码的视觉标记序列输入多路Transformer编码器,进行前向传播,得到对所有掩码位置标记的预测置信度分数。(3) 根据置信度分数,选择一部分预测最确信的标记“揭开”(Unmask),作为下一轮的输入。(4) 重复步骤(2)和(3),直到所有视觉标记都被成功预测。这个过程通常只需要很少的迭代步数(如24步),即可生成完整的256个视觉标记序列,最后再由图像标记器解码为最终图像。

三、 主要实验结果

研究在MS-COCO和CC-3M两个基准数据集上进行了广泛的实验评估,主要使用弗雷歇起始距离(Fréchet Inception Distance, FID)作为衡量生成图像质量和多样性的核心指标。

  1. 图像标记器性能

    • 在ImageNet验证集上,本研究提出的VQGAN_BEiT-3获得了1.88的FID分数(数值越低越好),显著优于随机初始化的VQGAN-16384(4.98)和VQGAN-1024(7.94),证明了其在图像重建质量上的巨大优势。定性对比也显示,VQGAN_BEiT-3重建的图像细节更清晰、更逼真。
    • 消融实验表明,在VQGAN微调的第一阶段,使用不同预训练视觉模型初始化编码器都能带来提升,其中以BEiT-3和BEiT v2效果最佳。在第二阶段,使用更大规模(如Large尺寸)的预训练模型初始化解码器,能进一步改善重建质量。
  2. 文本到图像生成性能

    • MS-COCO基准:本研究的方法在直接于MS-COCO上微调时,参数量为2.46亿的Multiway Transformer Base模型获得了8.19的FID。当参数量增至6.88亿的Large模型时,FID提升至5.75。这表明模型性能随参数增加而增强。最重要的结果是:在CC-3M数据集上进行中间微调(Intermediate Finetuning)后,6.88亿参数的Multiway Transformer Large模型在MS-COCO上取得了4.98的FID得分,达到了极具竞争力的性能。值得注意的是,尽管Cobit等方法使用了超过10亿的额外标注数据,而本研究仅使用了300万(CC-3M)的额外数据,却在相近的模型规模下取得了更优的FID分数(4.98 vs 5.06)。
    • CC-3M基准:在该数据集上训练和评估时,本研究的模型(6.88亿参数)取得了8.33的FID,优于其他同参数量级的对比方法(如RQ-Transformer的12.33,Draft-and-Revise的9.65)。
  3. 关键消融研究: 为了验证各组件贡献,研究在MS-COCO上进行了系统消融实验:

    • 多路Transformer架构的有效性:将多路Transformer替换为参数共享的Vanilla Transformer,FID分数从5.75下降至6.47(+0.72),这确凿地证明了模态特定的参数计算设计(即解耦设计)对于提升文本到图像生成性能是有效的
    • 双向编码中跨模态融合的重要性:在自注意力机制中,禁止图像标记到文本标记的信息融合(即掩蔽图像到文本的注意力),FID从5.75下降至6.16(+0.41)。这说明双向编码中视觉标记与文本标记的深度融合有助于提升模型性能,而这是传统编码器-解码器结构(文本编码器无法直接融合视觉信息)所不具备的优势。
    • 预训练初始化的价值:随机初始化所有模型参数会导致FID大幅下降至9.90(+4.15)。仅随机初始化视觉部分参数也会导致显著下降(+2.51)。这表明使用BEiT-3进行预训练初始化对模型性能至关重要。
    • 软标签训练的优势:使用硬性的独热标签代替VQGAN_BEiT-3提供的软标签,FID从5.75下降至6.65(+0.90),证实了软标签有助于模型学习码本内部关系。
    • 图像标记器的影响:对比不同的图像标记器,使用本文提出的VQGAN_BEiT-3(BEiT-3B编码器/BEiT-3L解码器)相比随机初始化的VQGAN,能将FID从15.58大幅提升至5.75。即使框架相同,使用BEiT-3初始化的标记器也比随机初始化的效果更好(6.07 vs 7.65)。这证明了图像标记器的重建质量直接且显著地影响最终的文本到图像生成效果

四、 结论与意义

本研究成功探索并验证了双向多路Transformer在文本到图像生成任务中的强大潜力。主要结论如下: 1. 方法有效性:提出的两阶段方法——通过VQGAN微调获得高质量图像标记器,并利用双向多路Transformer进行文本到图像建模——在MS-COCO和CC-3M基准上取得了优异的FID分数,证明了其整体方案的有效性。 2. 架构优势:实验证实,多路Transformer的解耦设计(模态特定参数)比共享参数的Vanilla Transformer性能更优。同时,其双向编码特性支持高效的迭代并行解码,并允许视觉与文本标记进行深度双向融合,这是提升性能的关键。 3. 标记器改进的价值:提出的基于预训练视觉Transformer的VQGAN微调范式,能够显著提升图像标记器的重建质量,并直接转化为更好的文本到图像生成结果。这为图像标记器的设计提供了一条新的、有效的技术路径。

本研究的科学价值在于:它系统性地将“预训练-微调”范式、多模态解耦建模思想与非自回归生成框架相结合,为文本到图像生成领域提供了一个性能强劲且推理高效的新模型架构。其应用价值体现在生成的图像质量高,且推理速度相比自回归方法有数量级上的提升,更适用于需要快速生成的现实应用场景。

五、 研究亮点

  1. 创新的模型架构:首次将多路Transformer这一解耦架构引入文本到图像生成任务,并与其双向编码特性相结合,在保证高性能的同时实现了非自回归的高效推理。
  2. 新颖的图像标记器训练范式:提出了VQGAN微调方法,创造性地利用强大的预训练视觉Transformer(如BEiT-3)来初始化图像标记器的编码器和解码器,打破了该领域长期依赖随机初始化的惯例,显著提升了标记器的重建能力。
  3. 详实严谨的验证:通过大量的主实验和消融实验,不仅证明了整体方法的优越性,还深入剖析了解耦设计、双向融合、预训练初始化、软标签训练、标记器质量等各个关键组件对最终性能的具体贡献,为后续研究提供了清晰的见解。
  4. 卓越的性能表现:在仅使用相对少量额外数据(CC-3M)的情况下,以6.88亿参数的模型规模,在MS-COCO上取得了极具竞争力的4.98的FID分数,展示了该方法出色的性能与数据效率。

六、 其他有价值内容

论文还从变分自编码器(Variational Autoencoder, VAE)的理论视角对提出的训练过程进行了解释,将其形式化为一个两阶段的训练过程,分别对应于学习图像标记器(近似后验分布和生成分布)和学习文本到图像模型(先验分布),从而为方法提供了理论基础。此外,论文在“相关工作”部分对文本到图像生成、多模态模型架构、图像标记器及预训练视觉Transformer等领域的研究进行了全面梳理,有助于读者理解本研究的定位与贡献。所有使用的数据集和预训练模型均为公开可用,保证了研究的可复现性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com