分享自:

高效灵活机器视觉的人类自适应视觉模拟

期刊:nature machine intelligenceDOI:10.1038/s42256-025-01130-7

类型a:学术研究报告

一、研究团队与发表信息
本研究由清华大学的研究团队主导,通讯作者为Shi Ji(邮箱:shijis@mail.tsinghua.edu.cn)和Gao Huang(邮箱:gaohuang@tsinghua.edu.cn)。研究成果以《Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception》为题,于2025年11月发表于期刊《Nature Machine Intelligence》(Volume 7, Pages 1804–1822),DOI编号为10.1038/s42256-025-01130-7。


二、学术背景与研究目标
科学领域:本研究属于计算机视觉与人工智能交叉领域,聚焦于机器视觉感知的效率和适应性优化。
研究动机:当前主流的机器视觉模型采用“被动式”(passive)处理方式,即一次性处理整个场景的所有像素,导致计算资源需求随输入分辨率和模型规模呈平方级增长,严重限制了实际应用。相比之下,人类视觉通过主动选择任务相关区域进行序列化注视(sequential fixations),显著降低了处理复杂度。
研究目标:开发名为AdaptiveNN的通用框架,将机器视觉从“被动”范式转向“主动自适应”(active and adaptive)范式,实现高效、灵活且可解释的视觉感知。


三、研究流程与方法
1. 框架设计
AdaptiveNN将视觉感知建模为粗到精的序列决策过程(coarse-to-fine sequential decision-making),包含以下核心模块:
- 视觉注视点(visual fixations):模型动态选择高分辨率局部区域(如p×p像素块)进行处理,而非全图输入。
- 感知网络(perception net, frep):基于ResNet或Vision Transformer等架构提取局部特征。
- 内部视觉表征(internal vision representation, st):通过更新算子ψ(·,·)整合历史注视点信息。
- 视觉代理(vision agent):包含策略网络π(决定下一注视点位置)和价值网络vπ(评估是否终止观察),通过强化学习优化。

2. 理论创新
研究提出自奖励强化学习(self-rewarding reinforcement learning)理论,将训练目标分解为:
- 表征学习(representation learning):最小化任务损失(如分类交叉熵)。
- 强化学习(reinforcement learning):通过策略梯度优化注视点选择策略,奖励信号为任务损失的负值(无需额外标注)。

3. 实验验证
研究在17个基准测试(涵盖9类任务)中评估AdaptiveNN,包括:
- 大规模视觉识别(ImageNet):使用ResNet-50和DeiT-S作为骨干网络。
- 细粒度分类(CUB-200-2011等6个数据集)。
- 真实驾驶场景(STSD数据集,960×1280分辨率)。
- 医学图像分析(RSNA肺炎检测,仅使用图像级标签)。
- 具身AI(CALVIN基准,语言指令驱动的机器人任务)。

4. 数据分析
- 效率指标:计算FLOPs(浮点运算次数)衡量推理成本。
- 性能指标:分类准确率、AUROC(医学任务)、任务完成长度(具身AI)。
- 人类行为对比:通过视觉图灵测试(visual Turing tests)和注视点空间一致性分析(Salicon数据集)评估模型与人类视觉的相似性。


四、主要结果与逻辑链条
1. 效率提升
- ImageNet任务中,AdaptiveNN将推理成本降低5.4倍(DeiT-S)和3.6倍(ResNet-50),精度无损(81.6% vs. 79.1%)。
- STSD驾驶场景任务实现28倍计算节省(2.7 vs. 76 GFLOPs/图像),准确率保持90.2%。

2. 自适应行为
- 模型动态调整注视点数量:复杂样本(如小目标或非常规视角)分配更多资源。
- 在线调整计算预算无需重新训练(如通过阈值ηt控制终止条件)。

3. 可解释性
- 注视点与人类视觉显著一致(Salicon数据集,p<0.0001)。
- 医学任务中,注视点与放射科医生标注的肺炎区域高度重合(无监督定位)。

4. 人类相似性
- 视觉图灵测试显示,人类无法区分AdaptiveNN与人类行为(准确率50-51%,随机猜测水平)。


五、结论与价值
科学价值
1. 提出首个将强化学习与表征学习统一的理论框架,解决非可微分序列决策的端到端训练难题。
2. 验证了人类视觉的“主动自适应”策略在机器视觉中的普适性,突破“不可能三角”(输入分辨率、模型规模、效率的权衡)。

应用价值
1. 高效部署:适用于边缘计算(如自动驾驶、可穿戴设备)和大型模型(如多模态LLMs)。
2. 跨学科工具:为认知科学提供计算模型,探索人类视觉认知机制。


六、研究亮点
1. 方法创新:首次实现无需注视点标注的自适应视觉训练框架。
2. 性能突破:在保持精度的同时,计算成本降低达28倍。
3. 跨任务泛化:涵盖静态图像、视频、交互式任务(如机器人控制)。
4. 行为可解释性:注视点模式与人类临床判断或视觉注意力高度一致。


七、其他价值
研究还揭示了:
- 人类视觉的“粗到精”策略可通过常规视觉任务(如分类)学习获得,无需先天归纳偏置。
- 为AI驱动的认知科学研究开辟新路径(如通过强化学习模拟学习过程)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com