探索MLLMs中像素理解能力的新范式：通过模仿人类标注轨迹实现高质量分割

分享自：
探索MLLMs中像素理解能力的新范式：通过模仿人类标注轨迹实现高质量分割

期刊:CVPR
这篇文档属于类型a，是一篇关于多模态大语言模型（MLLMs）像素理解能力的原创研究。以下是详细的学术报告：
作者与机构
 本研究由Muzhi Zhu（浙江大学与蚂蚁集团双聘）、Yuzhuo Tian、Hao Chen*（通讯作者）、Chunluan Zhou、Qingpei Guo*（通讯作者）、Yang Liu、Ming Yang和Chunhua Shen*（通讯作者）合作完成，发表于计算机视觉领域顶级会议CVPR（具体年份未明确，推测为2024年）。
学术背景研究领域与动机
 研究聚焦于多模态大语言模型（MLLMs）的像素级理解能力。尽管MLLMs在图像理解任务（如视觉问答VQA和视觉定位Visual Grounding）中表现优异，但其像素级分割能力仍存在明显局限。现有方法依赖外部像素解码器生成隐式标记（implicit tokens），这会破坏模型的文本输出空间，降低语言能力与扩展性，且无法真实反映模型内在的像素理解水平。
核心问题
 如何在不改变MLLMs架构的前提下，通过纯文本交互实现高质量的像素级分割？研究者提出模仿人类标注员的交互式分割轨迹，将任务建模为多步马尔可夫决策过程（MDP），从而评估和提升MLLMs的细粒度视觉能力。
研究流程与方法1. 任务定义与框架设计人类标注模拟任务（HLMAT）
 - 输入：图像(I)、文本提示(p)、当前掩码(m_t)。
 - 动作：模型输出文本格式的点击坐标（如“positive point: (175,483)”），通过交互式分割工具（如SAM或SimpleClick）迭代优化掩码。
 - 关键创新：将分割过程建模为MDP，状态(s_t)包含当前掩码和历史动作，奖励函数基于掩码与真实标注的交并比（IoU）。
2. 数据生成与训练自动化轨迹生成算法
 - 输入数据：现有分割数据集（如RefCOCO、DIS5K），包含图像-掩码-文本三元组。
 - 模拟策略：通过函数(f{sim})计算当前掩码与真实掩码的误差区域中心，生成模拟点击动作。
 - 噪声控制：通过限制轨迹长度（(T{\max})）、设置IoU终止阈值（(\tau{stop})）和动作影响阈值（(\tau{diff})）过滤低质量数据。
 - 训练数据：最终生成包含多步状态-动作对的轨迹数据集(D_{traj})，用于微调MLLMs（如LLaVA和Qwen-VL）。
3. 模型优化策略STAR+算法
 - 策略改进：在监督微调（SFT）基础上，通过模型自生成轨迹与人工修正动作的混合训练提升泛化性。
 - 流程：每轮迭代中，模型生成新轨迹，保留奖励提升的动作，替换奖励下降的动作为(f_{sim})生成的优化动作。
过程奖励模型（PRM）与树搜索
 - 推理优化：模型额外预测当前掩码的IoU分数，结合启发式贪婪搜索（k=3候选动作）选择最优路径，避免局部最优。
 - 停止信号：PRM预测的IoU替代固定步长终止，提升复杂场景下的鲁棒性。
4. 实验设计评估协议：在Referring Expression Segmentation（RES）和自建高质量数据集（HRES）上测试，指标为累积IoU（cIoU）。
 
基线对比：包括传统分割方法（如PolyFormer）、基于MLLM的方法（如LISA、PixelLM）以及纯文本输出方法。
 
主要结果性能对比
RES数据集：SegAgent（LLaVA+SAM）在RefCOCO testA上达到81.44 IoU，超越多数SOTA方法（如PixelLM的76.5 IoU）。
 
HRES数据集：在复杂场景（如ThinObject5K）中，STAR+和树搜索将模型性能从71.45 IoU提升至86.57 IoU。
 
关键发现
模型架构影响：Qwen-VL因Q-Former结构在初始定位中占优，但LLaVA在掩码细化阶段表现更佳，显示像素级任务需平衡语义与空间感知。
 
数据质量需求：RefCOCO因标注噪声限制轨迹长度，而HRES支持长程决策验证，凸显高质量数据对复杂任务的重要性。
 
扩展能力
SegAgent支持掩码优化和标注过滤，验证了HLMAT框架的多任务兼容性。
 
结论与价值科学意义
 - 新评估协议：HLMAT为MLLMs的像素级理解提供了标准化测试框架，弥补了传统粗粒度任务（如VQA）的不足。
 - 方法创新：首次将多步决策与纯文本交互结合，避免隐式标记对模型架构的依赖。
应用价值
 - 工业场景：可应用于高精度图像标注、自动驾驶环境感知等需像素级输出的领域。
 - 开源贡献：代码已公开于GitHub（https://github.com/aim-uofa/segagent），推动后续研究。
研究亮点任务设计：HLMAT将分割转化为人类标注模拟任务，兼具评估与训练双重价值。
 
算法创新：STAR+和PRM-guided树搜索提升了复杂场景下的模型鲁棒性。
 
数据贡献：构建的HRES数据集填补了长轨迹、高质量分割数据的空白。
 
局限性
 - 依赖外部交互式分割工具（如SAM），未来可探索端到端训练方案。
 - 树搜索计算成本较高，需进一步优化效率。
此研究为MLLMs在细粒度视觉感知与多步决策领域的探索奠定了重要基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问