本研究由Yusu Qian、Eli Bocek-Rivele、Liangchen Song、Jialing Tong、Yinfei Yang、Jiasen Lu⋆、Wenze Hu⋆、Zhe Gan⋆(⋆为资深作者)共同完成,所属机构为Apple。该研究尚未标注具体期刊信息,但文档标注日期为2025年10月23日,代码已开源(GitHub: apple/pico-banana-400k)。
研究聚焦多模态模型(Multimodal Models)驱动的文本引导图像编辑(Text-Guided Image Editing)领域。当前,GPT-4O和Nano-Banana等系统已展现强大能力,但研究进展受限于高质量、大规模、开源数据集的缺乏。现有数据集多依赖合成图像或小规模人工标注,存在域偏移(Domain Shift)、编辑类型分布不均、质量控制不足等问题。
本研究旨在填补这一空白,提出Pico-Banana-400k数据集——一个基于真实图像(OpenImages)、包含40万样本的编辑数据集,涵盖35种编辑类型,并通过自动化质量评分与人工校验确保数据质量。
核心流程分为四步:
- 源图像选择:从OpenImages数据集中筛选真实照片,覆盖人、物体、文本场景。
- 编辑指令生成:
- 长指令:使用Gemini-2.5-Flash生成详细编辑指令,强调内容感知(如对象、颜色、位置)。
- 短指令:基于人类标注示例,通过Qwen2.5-7B-Instruct模型生成简洁用户风格指令。
- 图像编辑执行:利用Nano-Banana模型执行编辑,生成“原图-编辑后”配对。
- 质量评估:通过Gemini-2.5-Pro作为自动化评委,从指令遵从性(40%)、无缝性(25%)、内容保留平衡(20%)、技术质量(15%)四个维度评分,阈值设为0.7。
编辑类型成功率分析(图6):
多轮编辑示例(图5):
展示从原始图像→复古滤镜→背景替换→冬季转换→黄金时段光照调整的连贯编辑链,证明数据支持复杂推理研究。
科学价值:
应用价值:
(注:由于文档未明确标注期刊名称,部分出版信息暂缺。)