这篇文档属于类型a,是一篇关于多模态指令驱动的图像生成与编辑统一框架MIGE的原创性研究论文。以下是针对该研究的学术报告:
作者:Xueyun Tian(中国科学院计算技术研究所)、Wei Li(中国科学院计算技术研究所)、Bingbing Xu(中国科学院计算技术研究所)、Yige Yuan(中国科学院大学)、Yuanzhuo Wang(中国科学院计算技术研究所)、Huawei Shen(中国科学院计算技术研究所)。
期刊与时间:发表于ACM International Conference on Multimedia (MM ‘25),2025年10月。
研究领域:计算机视觉与生成式人工智能,聚焦于扩散模型(diffusion models)驱动的图像生成与编辑任务。
研究动机:现有方法将主题驱动生成(subject-driven generation)和指令驱动编辑(instruction-based editing)视为独立任务,导致数据利用率低、泛化能力受限。两类任务的核心共性是需在输入输出间保持视觉一致性,同时响应复杂指令。MIGE通过统一框架实现两类任务的联合训练,促进跨任务知识迁移。
目标:
1. 提出首个支持多模态指令的统一框架,标准化任务表示;
2. 设计特征融合机制,整合视觉与语义特征;
3. 验证联合训练对任务性能的相互增强作用;
4. 拓展至新兴组合任务——指令驱动的主题编辑(instruction-based subject-driven editing)。
输入输出标准化:
- 多模态指令:将图像与文本交错编码为统一格式(如<imagehere>占位符),支持跨任务组合。
- 条件输入:编辑任务输入源图像VAE编码,生成任务输入全零张量,通过通道拼接实现结构统一。
模型架构:
- 多模态编码器:
- 视觉特征:VAE编码器提取细节特征;
- 语义特征:EVA-CLIP的ViT提取高层语义;
- 特征融合机制:通过跨注意力(attn(f_s, f_v))融合两类特征,输出32维融合令牌。
- 扩散模型:基于PixArt-α的Transformer架构,以噪声和条件输入为起点生成图像。
三类任务数据集:
- 主题驱动生成:基于BLIP3-Grounding-50M和Subjects200K,通过SAM分割实体,筛选高质量样本(20万组);
- 指令驱动编辑:整合InstructPix2Pix、MagicBrush等6个数据集,重构为多模态指令格式(49%训练数据);
- 指令驱动主题编辑:
- 主题添加:从SA-1B数据集中提取前景实体,通过LAMA修复背景,GPT-4o生成指令(19.3万组);
- 主题替换:基于SEED-Data-Edit筛选样本,Grounded SAM分割实体(11万组)。
数据增强策略:5%概率随机丢弃条件输入或多模态指令,以支持无分类器引导推理。
联合训练增益:单一任务模型在联合训练后,编辑任务DINO分数从0.821提升至0.873(图2)。
科学价值:
1. 首次验证主题生成与指令编辑任务的协同增强效应;
2. 提出多模态指令的统一表示方法,支持跨任务泛化;
3. 特征融合机制为多模态对齐提供新思路。
应用价值:
- 支持复杂场景下的可控图像生成(如广告设计、虚拟试穿);
- 开源代码与模型(https://github.com/mige-project)推动社区发展。
(全文约2000字)