分享自:

MIGE:基于多模态指令的相互增强图像生成与编辑

期刊:ACM International Conference on MultimediaDOI:10.1145/3746027.3755811

这篇文档属于类型a,是一篇关于多模态指令驱动的图像生成与编辑统一框架MIGE的原创性研究论文。以下是针对该研究的学术报告:


一、作者与发表信息

作者:Xueyun Tian(中国科学院计算技术研究所)、Wei Li(中国科学院计算技术研究所)、Bingbing Xu(中国科学院计算技术研究所)、Yige Yuan(中国科学院大学)、Yuanzhuo Wang(中国科学院计算技术研究所)、Huawei Shen(中国科学院计算技术研究所)。
期刊与时间:发表于ACM International Conference on Multimedia (MM ‘25),2025年10月。


二、学术背景

研究领域:计算机视觉与生成式人工智能,聚焦于扩散模型(diffusion models)驱动的图像生成与编辑任务。
研究动机:现有方法将主题驱动生成(subject-driven generation)指令驱动编辑(instruction-based editing)视为独立任务,导致数据利用率低、泛化能力受限。两类任务的核心共性是需在输入输出间保持视觉一致性,同时响应复杂指令。MIGE通过统一框架实现两类任务的联合训练,促进跨任务知识迁移。
目标
1. 提出首个支持多模态指令的统一框架,标准化任务表示;
2. 设计特征融合机制,整合视觉与语义特征;
3. 验证联合训练对任务性能的相互增强作用;
4. 拓展至新兴组合任务——指令驱动的主题编辑(instruction-based subject-driven editing)


三、研究流程与方法

1. 统一框架设计

输入输出标准化
- 多模态指令:将图像与文本交错编码为统一格式(如<imagehere>占位符),支持跨任务组合。
- 条件输入:编辑任务输入源图像VAE编码,生成任务输入全零张量,通过通道拼接实现结构统一。

模型架构
- 多模态编码器
- 视觉特征:VAE编码器提取细节特征;
- 语义特征:EVA-CLIP的ViT提取高层语义;
- 特征融合机制:通过跨注意力(attn(f_s, f_v))融合两类特征,输出32维融合令牌。
- 扩散模型:基于PixArt-α的Transformer架构,以噪声和条件输入为起点生成图像。

2. 数据构建

三类任务数据集
- 主题驱动生成:基于BLIP3-Grounding-50M和Subjects200K,通过SAM分割实体,筛选高质量样本(20万组);
- 指令驱动编辑:整合InstructPix2Pix、MagicBrush等6个数据集,重构为多模态指令格式(49%训练数据);
- 指令驱动主题编辑
- 主题添加:从SA-1B数据集中提取前景实体,通过LAMA修复背景,GPT-4o生成指令(19.3万组);
- 主题替换:基于SEED-Data-Edit筛选样本,Grounded SAM分割实体(11万组)。

数据增强策略:5%概率随机丢弃条件输入或多模态指令,以支持无分类器引导推理。

3. 训练与优化

  • 联合训练:三类任务数据按比例混合(40%生成、49%编辑、11%组合任务),采用AdamW优化器(学习率1e-5);
  • 关键创新:特征融合机制通过MLP增强视觉细节保留能力,显著提升DINO与CLIP-I分数。

四、主要结果

1. 指令驱动编辑任务

  • MagicBrush测试集:MIGE的DINO分数达0.889(vs. 基线InstructPix2Pix的0.763),CLIP-I分数0.905,显示最优输入输出一致性;
  • 案例验证:仅MIGE能精准添加“达菲鸭”图像至行李箱,且不破坏背景(图6)。

2. 主题驱动生成任务

  • DreamBench测试集:DINO分数0.744,超越Kosmos-G(0.694)和UniMo-G(0.668),多主题场景中身份保持更优(图7)。

3. 新兴组合任务

  • Migebench(自建基准):
    • 主题替换:DINO编辑分数0.863,主题保留分数0.652(优于AnyDoor的0.551);
    • 主题添加:CLIP-I分数0.940,证明空间描述指令的精准理解(图8)。

联合训练增益:单一任务模型在联合训练后,编辑任务DINO分数从0.821提升至0.873(图2)。


五、结论与价值

科学价值
1. 首次验证主题生成与指令编辑任务的协同增强效应;
2. 提出多模态指令的统一表示方法,支持跨任务泛化;
3. 特征融合机制为多模态对齐提供新思路。

应用价值
- 支持复杂场景下的可控图像生成(如广告设计、虚拟试穿);
- 开源代码与模型(https://github.com/mige-project)推动社区发展。


六、研究亮点

  1. 任务统一性:通过多模态指令桥接生成与编辑任务;
  2. 数据创新:构建首个指令驱动主题编辑数据集与评估基准Migebench;
  3. 性能突破:在三大任务上均达到SOTA,尤其组合任务DINO分数提升21%。

七、其他贡献

  • 可扩展性:框架支持未来新增任务(如视频编辑);
  • 局限性:对超长指令的响应仍需优化,未来计划引入更强大语言模型。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com