这项研究由Ling Yang*¹、Zhaochen Yu*¹、Chenlin Meng²³、Minkai Xu²、Stefano Ermon²和Bin Cui¹合作完成,¹代表北京大学(中国),²代表斯坦福大学(美国),³代表Pika Labs(美国),通讯作者为Ling Yang(yangling0818@163.com)。研究成果发表于《Proceedings of the 41st International Conference on Machine Learning》(PMLR 235),会议于2024年在奥地利维也纳举行。
研究领域为生成式人工智能(Generative AI),具体聚焦于文本到图像(text-to-image)扩散模型(diffusion models)的生成与编辑能力优化。当前,尽管扩散模型(如DALL·E 3、SDXL)在生成逼真图像方面表现优异,但其对包含多对象、多属性及复杂关系的文本提示(text prompts)的处理能力仍存在局限。传统方法(如布局控制或注意力引导)依赖粗糙的空间约束或额外训练反馈,易导致重叠对象生成模糊或语义对齐不足。为此,本研究提出无需训练的新框架RPG(Recaption, Plan, and Generate),通过多模态大语言模型(Multimodal LLMs, MLLMs)的链式推理(Chain-of-Thought, CoT)能力,将复杂生成任务分解为区域化子任务,提升扩散模型的组合生成能力。
RPG框架包含三大核心策略:
多模态重标注(Multimodal Recaptioning)
链式推理规划(Chain-of-Thought Planning)
互补区域扩散(Complementary Regional Diffusion)
实验设计:
- 生成任务:在T2I-CompBench等基准测试中,对比SDXL、DALL·E 3等模型,评估属性绑定(attribute binding)、数量准确性(numeric accuracy)及复杂关系(complex relationships)的生成效果。
- 编辑任务:通过轮廓掩码(contour-based masking)实现精准局部修改(如将“黑色猫”替换为“棕色猫”),支持多轮闭环优化。
科学价值:
- 首次将MLLMs作为全局规划器(global planner)嵌入扩散模型,通过CoT推理实现生成任务的动态分解。
- 提出的互补区域扩散算法解决了重叠内容冲突问题,为组合生成提供了新范式。
应用价值:
- 无需额外训练即可适配现有模型(如SDXL),降低计算成本。
- 支持影视设计、广告创意等需高精度语义控制的场景。
该研究为多模态生成模型的可控性提供了重要技术路径,其“规划-生成”协同框架或可推广至视频生成、3D建模等更广泛领域。