分享自:

探索MLLMs中像素理解能力的新范式:通过模仿人类标注轨迹实现高质量分割

期刊:CVPR

这篇文档属于类型a,是一篇关于多模态大语言模型(MLLMs)像素理解能力的原创研究。以下是详细的学术报告:


作者与机构
本研究由Muzhi Zhu(浙江大学与蚂蚁集团双聘)、Yuzhuo Tian、Hao Chen*(通讯作者)、Chunluan Zhou、Qingpei Guo*(通讯作者)、Yang Liu、Ming Yang和Chunhua Shen*(通讯作者)合作完成,发表于计算机视觉领域顶级会议CVPR(具体年份未明确,推测为2024年)。


学术背景

研究领域与动机
研究聚焦于多模态大语言模型(MLLMs)的像素级理解能力。尽管MLLMs在图像理解任务(如视觉问答VQA和视觉定位Visual Grounding)中表现优异,但其像素级分割能力仍存在明显局限。现有方法依赖外部像素解码器生成隐式标记(implicit tokens),这会破坏模型的文本输出空间,降低语言能力与扩展性,且无法真实反映模型内在的像素理解水平。

核心问题
如何在不改变MLLMs架构的前提下,通过纯文本交互实现高质量的像素级分割?研究者提出模仿人类标注员的交互式分割轨迹,将任务建模为多步马尔可夫决策过程(MDP),从而评估和提升MLLMs的细粒度视觉能力。


研究流程与方法

1. 任务定义与框架设计

人类标注模拟任务(HLMAT)
- 输入:图像(I)、文本提示(p)、当前掩码(m_t)。
- 动作:模型输出文本格式的点击坐标(如“positive point: (175,483)”),通过交互式分割工具(如SAM或SimpleClick)迭代优化掩码。
- 关键创新:将分割过程建模为MDP,状态(s_t)包含当前掩码和历史动作,奖励函数基于掩码与真实标注的交并比(IoU)。

2. 数据生成与训练

自动化轨迹生成算法
- 输入数据:现有分割数据集(如RefCOCO、DIS5K),包含图像-掩码-文本三元组。
- 模拟策略:通过函数(f{sim})计算当前掩码与真实掩码的误差区域中心,生成模拟点击动作。
- 噪声控制:通过限制轨迹长度((T
{\max}))、设置IoU终止阈值((\tau{stop}))和动作影响阈值((\tau{diff}))过滤低质量数据。
- 训练数据:最终生成包含多步状态-动作对的轨迹数据集(D_{traj}),用于微调MLLMs(如LLaVA和Qwen-VL)。

3. 模型优化策略

STAR+算法
- 策略改进:在监督微调(SFT)基础上,通过模型自生成轨迹与人工修正动作的混合训练提升泛化性。
- 流程:每轮迭代中,模型生成新轨迹,保留奖励提升的动作,替换奖励下降的动作为(f_{sim})生成的优化动作。

过程奖励模型(PRM)与树搜索
- 推理优化:模型额外预测当前掩码的IoU分数,结合启发式贪婪搜索(k=3候选动作)选择最优路径,避免局部最优。
- 停止信号:PRM预测的IoU替代固定步长终止,提升复杂场景下的鲁棒性。

4. 实验设计

  • 评估协议:在Referring Expression Segmentation(RES)和自建高质量数据集(HRES)上测试,指标为累积IoU(cIoU)。
  • 基线对比:包括传统分割方法(如PolyFormer)、基于MLLM的方法(如LISA、PixelLM)以及纯文本输出方法。

主要结果

  1. 性能对比

    • RES数据集:SegAgent(LLaVA+SAM)在RefCOCO testA上达到81.44 IoU,超越多数SOTA方法(如PixelLM的76.5 IoU)。
    • HRES数据集:在复杂场景(如ThinObject5K)中,STAR+和树搜索将模型性能从71.45 IoU提升至86.57 IoU。
  2. 关键发现

    • 模型架构影响:Qwen-VL因Q-Former结构在初始定位中占优,但LLaVA在掩码细化阶段表现更佳,显示像素级任务需平衡语义与空间感知。
    • 数据质量需求:RefCOCO因标注噪声限制轨迹长度,而HRES支持长程决策验证,凸显高质量数据对复杂任务的重要性。
  3. 扩展能力

    • SegAgent支持掩码优化标注过滤,验证了HLMAT框架的多任务兼容性。

结论与价值

科学意义
- 新评估协议:HLMAT为MLLMs的像素级理解提供了标准化测试框架,弥补了传统粗粒度任务(如VQA)的不足。
- 方法创新:首次将多步决策与纯文本交互结合,避免隐式标记对模型架构的依赖。

应用价值
- 工业场景:可应用于高精度图像标注、自动驾驶环境感知等需像素级输出的领域。
- 开源贡献:代码已公开于GitHub(https://github.com/aim-uofa/segagent),推动后续研究。


研究亮点

  1. 任务设计:HLMAT将分割转化为人类标注模拟任务,兼具评估与训练双重价值。
  2. 算法创新:STAR+和PRM-guided树搜索提升了复杂场景下的模型鲁棒性。
  3. 数据贡献:构建的HRES数据集填补了长轨迹、高质量分割数据的空白。

局限性
- 依赖外部交互式分割工具(如SAM),未来可探索端到端训练方案。
- 树搜索计算成本较高,需进一步优化效率。


此研究为MLLMs在细粒度视觉感知与多步决策领域的探索奠定了重要基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com