这篇文档属于类型a,是一篇关于多模态大语言模型(MLLMs)像素理解能力的原创研究。以下是详细的学术报告:
作者与机构
本研究由Muzhi Zhu(浙江大学与蚂蚁集团双聘)、Yuzhuo Tian、Hao Chen*(通讯作者)、Chunluan Zhou、Qingpei Guo*(通讯作者)、Yang Liu、Ming Yang和Chunhua Shen*(通讯作者)合作完成,发表于计算机视觉领域顶级会议CVPR(具体年份未明确,推测为2024年)。
研究领域与动机
研究聚焦于多模态大语言模型(MLLMs)的像素级理解能力。尽管MLLMs在图像理解任务(如视觉问答VQA和视觉定位Visual Grounding)中表现优异,但其像素级分割能力仍存在明显局限。现有方法依赖外部像素解码器生成隐式标记(implicit tokens),这会破坏模型的文本输出空间,降低语言能力与扩展性,且无法真实反映模型内在的像素理解水平。
核心问题
如何在不改变MLLMs架构的前提下,通过纯文本交互实现高质量的像素级分割?研究者提出模仿人类标注员的交互式分割轨迹,将任务建模为多步马尔可夫决策过程(MDP),从而评估和提升MLLMs的细粒度视觉能力。
人类标注模拟任务(HLMAT)
- 输入:图像(I)、文本提示(p)、当前掩码(m_t)。
- 动作:模型输出文本格式的点击坐标(如“positive point: (175,483)”),通过交互式分割工具(如SAM或SimpleClick)迭代优化掩码。
- 关键创新:将分割过程建模为MDP,状态(s_t)包含当前掩码和历史动作,奖励函数基于掩码与真实标注的交并比(IoU)。
自动化轨迹生成算法
- 输入数据:现有分割数据集(如RefCOCO、DIS5K),包含图像-掩码-文本三元组。
- 模拟策略:通过函数(f{sim})计算当前掩码与真实掩码的误差区域中心,生成模拟点击动作。
- 噪声控制:通过限制轨迹长度((T{\max}))、设置IoU终止阈值((\tau{stop}))和动作影响阈值((\tau{diff}))过滤低质量数据。
- 训练数据:最终生成包含多步状态-动作对的轨迹数据集(D_{traj}),用于微调MLLMs(如LLaVA和Qwen-VL)。
STAR+算法
- 策略改进:在监督微调(SFT)基础上,通过模型自生成轨迹与人工修正动作的混合训练提升泛化性。
- 流程:每轮迭代中,模型生成新轨迹,保留奖励提升的动作,替换奖励下降的动作为(f_{sim})生成的优化动作。
过程奖励模型(PRM)与树搜索
- 推理优化:模型额外预测当前掩码的IoU分数,结合启发式贪婪搜索(k=3候选动作)选择最优路径,避免局部最优。
- 停止信号:PRM预测的IoU替代固定步长终止,提升复杂场景下的鲁棒性。
性能对比
关键发现
扩展能力
科学意义
- 新评估协议:HLMAT为MLLMs的像素级理解提供了标准化测试框架,弥补了传统粗粒度任务(如VQA)的不足。
- 方法创新:首次将多步决策与纯文本交互结合,避免隐式标记对模型架构的依赖。
应用价值
- 工业场景:可应用于高精度图像标注、自动驾驶环境感知等需像素级输出的领域。
- 开源贡献:代码已公开于GitHub(https://github.com/aim-uofa/segagent),推动后续研究。
局限性
- 依赖外部交互式分割工具(如SAM),未来可探索端到端训练方案。
- 树搜索计算成本较高,需进一步优化效率。
此研究为MLLMs在细粒度视觉感知与多步决策领域的探索奠定了重要基础。