Monolift：通过蒸馏从单目RGB学习3D操作策略

分享自：
Monolift：通过蒸馏从单目RGB学习3D操作策略

人工智能
计算机科学
期刊:Conference on Neural Information Processing Systems (NeurIPS 2025)
【点击此处】阅读全文、收藏及针对性提问
关于“Monolift：通过蒸馏从单目RGB学习三维操作策略”的学术研究报告
本文介绍了一项由Ziru Wang, Mengmeng Wang, Guang Dai, Yongliu Long, Jingdong Wang共同完成的研究，作者分别来自国家电网SGIT AI实验室、浙江工业大学、浙江大学和百度。该研究发表于第39届神经信息处理系统会议（NeurIPS 2025）。这是一篇关于机器人视觉控制领域的前沿原创研究论文。
一、 学术背景
本研究属于机器人学习与计算机视觉交叉领域，具体聚焦于从视觉观察中学习机器人操作策略。在现实世界部署机器人时，传感器成本和计算效率是关键瓶颈。基于多视角图像、点云或RGB-D（彩色-深度）传感器的三维策略学习方法虽然能提供精确的空间信息，但依赖于昂贵的专用硬件和复杂的预处理流程（如标定、对齐、滤波），限制了其可扩展性和在资源受限环境中的部署。
作为一种轻量级且易于部署的替代方案，直接从单目RGB图像学习三维操作策略受到了广泛关注。然而，这种方法存在一个根本性挑战：二维视觉感知与三维动作推理之间存在鸿沟。在操作任务中，视觉上相似的观察可能对应着需要截然不同动作的状态（例如，物体位置或朝向的细微差异），仅凭RGB图像缺乏明确的结构信息，导致模仿学习模型难以区分这些情况，产生模糊或次优的动作，阻碍了精确状态-动作映射的学习。
现有的一些方法试图通过从单目RGB中推断隐式三维线索来缓解这一问题，例如通过视频或图像预测来建模时序动态，或利用预训练扩散模型从单帧合成新视角以注入空间先验。然而，这些方法通常采用多阶段流程，将结构推理作为与策略学习分离的中间步骤，容易引入累积误差并削弱感知与决策之间的耦合。
一个更直接的解决方案是将深度估计器集成到策略架构中，将其输出作为几何感知的输入。随着单目深度估计技术的进步，从RGB图像获取伪深度图已成为可能。然而，在推理阶段引入深度估计器会显著增加计算成本和延迟，影响实际部署的实用性。这引出了本研究要解决的核心问题：我们能否在不增加推理时成本的前提下，保留深度引导的三维推理带来的好处？
本研究的目标正是解决这一矛盾，提出一种名为 Monolift 的框架，旨在通过知识蒸馏（Knowledge Distillation）将深度引导教师模型（Teacher Model）的三维感知能力迁移到仅使用单目RGB输入的学生模型（Student Model）中，从而使学生模型在部署时仅需RGB输入即可进行三维感知和精确控制，同时保持高效性。
二、 研究流程与方法详述
Monolift的核心是一个三级知识蒸馏框架，旨在将空间、时序和动作层面的知识从深度引导的教师模型迁移到单目RGB学生模型。整个研究流程包括模型架构设计、三级蒸馏机制实现以及在模拟和真实世界环境中的系统性实验验证。
1. 整体架构与数据流程 研究构建了两个主要组件：用于部署的学生模型和仅用于增强策略训练的教师模型。两者共享编码器、Transformer和解码器（策略头）的大部分参数，以确保知识的一致性迁移。 * 学生模型：输入为包含视觉历史的连续h帧RGB图像序列以及语言指令。处理流程为：(a) 空间编码：使用ResNet-18编码器提取RGB特征；(b) 时序建模：将视觉特征与语言指令token拼接，并附加可学习的动作token，输入一个因果Transformer解码器，生成时序感知特征；© 动作预测：将Transformer输出的动作token特征输入一个多层感知机（MLP）策略头，生成学生模型的动作分布。 * 教师模型：仅在训练时使用。其输入除了RGB序列和语言指令外，还利用一个预训练的单目深度估计器（本研究采用Depth Anything V2）为每帧RGB图像生成伪深度图。处理流程与学生模型类似，但关键区别在于空间编码阶段：(a) 空间编码：首先将深度图渲染为伪彩色热图以在视觉上与RGB对齐，然后将RGB和伪深度图对输入一个统一RGB-深度编码器（与学生共享权重），并通过一个双路径跨模态融合模块生成融合了RGB和深度信息的空间特征。后续的时序建模和动作预测流程与学生模型一致。
2. 三级知识蒸馏机制 这是本研究的核心创新。针对单目RGB策略学习的三个根本性局限（空间歧义、时序线索有限、因缺乏三维先验导致动作误导），研究者设计了三个互补的蒸馏目标： * 空间表征蒸馏：目的是帮助学生模型学习教师模型从RGB-D数据中获得的几何感知特征。教师模型通过双路径跨模态融合模块生成融合特征 f_t_spa。学生模型仅从RGB提取特征 f_s_spa。蒸馏目标是最小化两者之间的L2距离损失（公式2），迫使学生仅从RGB中学习到类似教师的结构化表征。 * 时序动态蒸馏：目的是帮助学生捕捉反映底层三维结构变化的运动模式。教师和学生模型都将空间特征序列输入共享的Transformer解码器，输出上下文化的时序特征 f_t_tem 和 f_s_tem。研究者将时序特征随时间的变化（即梯度）视为状态动态转换的关键指标。蒸馏目标是最小化教师和学生时序特征梯度之间的L2距离损失（公式3），使学生能够模仿教师建模三维感知状态演变的能力。 * 动作分布蒸馏：标准模仿学习使用确定性的专家动作标签，但无法捕捉动作的不确定性和相关性。而具备RGB-D输入的教师模型能产生反映更深空间理解和更丰富三维信息的动作分布。因此，研究引入动作分布蒸馏，通过最小化教师动作分布 A_t 与学生动作分布 A_s 之间的KL散度（Kullback–Leibler Divergence）（公式4），引导学生模型学习三维感知的决策模式。
最终，模型通过结合模仿学习损失（公式1）和上述三个蒸馏损失进行端到端训练。训练完成后，仅需轻量级的学生模型进行部署，无需深度估计器，实现了高效推理。
3. 实验设计与验证流程 研究在多个模拟和真实世界基准上进行了全面评估，以验证Monolift的有效性、泛化性和部署效率。 * 模拟环境： * LIbero-90：用于评估在视觉相似但结构不同的物体（如不同颜色的杯子）场景下的策略性能，挑战单目RGB方法的辨别能力。选取了2个场景中的8个代表性任务，每个任务使用20条专家演示轨迹。 * Meta-World：用于评估需要精细控制的复杂操作任务（如抓取、放置、推动）。选取了15个任务，并根据控制难度和几何推理需求分为简单（7个）、中等（5个）和困难（3个）三类。 * LIbero-Long：用于评估长视野、多阶段操作任务，测试策略的空间理解和时序稳定性。 * 基线方法：与多种先进方法比较，包括：(1) 单目RGB直接映射法：如RT-1, MT-ACT；(2) 学习隐式三维线索的单目RGB法：如GROUND（通过预测未来视觉观察）、MT-R3M（利用预训练视觉编码器R3M）；(3) 使用显式三维输入的方法：如3D-VLA（使用RGB-D）、SPA（使用多视角RGB）。 * 评估指标：主要使用任务成功率（Success Rate, S.R.）进行量化比较。同时评估了模型参数量和推理时间以衡量部署效率。 * 消融实验：系统地移除了三级知识蒸馏（TriKD）中的各个分支（无空间、无时序、无动作），以验证每个组成部分的贡献。此外，还测试了将TriKD（去除动作分支）应用于基线方法RT-1的效果，以验证其可迁移性。研究了不同质量深度估计器（Depth Anything V2的ViT-S, ViT-B, ViT-L变体以及模拟器提供的真实深度）对蒸馏性能的影响。 * 真实世界实验：在Franka Research 3机械臂上进行了6个操作任务的验证，包括按按钮、推盒子、抽纸巾、抓葡萄放盘子、举杯倒水、叠毛巾。使用固定的Orbbec相机采集数据，每个任务收集10条包含自然抖动和不完美动作的演示轨迹，并在10次试验中评估成功率，以测试模型在真实噪声环境下的鲁棒性。
三、 主要研究结果
实验结果表明，Monolift在多个基准测试中 consistently 取得了优异性能，甚至超越了部分依赖显式三维输入的方法。
在LIbero-90上的结果：如表1所示，Monolift在8个任务上的平均成功率达到了80.8%，显著超过了所有基线方法。它不仅大幅优于仅使用单目RGB的方法（如MT-ACT 35.4%， RT-1 47.5%， GROUND 52.5%），也超越了使用显式三维输入的方法（如3D-VLA 68.7%， SPA 61.2%）。这证明了通过三级蒸馏，学生模型成功地从教师那里学到了强大的三维空间推理能力，能够有效区分视觉相似但结构不同的物体状态。
在Meta-World上的结果：如图3所示，Monolift在15个任务上的平均成功率达到87.8%，在所有方法中位列第一。特别是在困难的精细操作任务上，其优势更为明显。定性分析显示，基线方法RT-1在抓取任务中因缺乏三维信息而经常定位错误，导致抓取失败；而Monolift在相同输入下能成功抓取目标物体，展示了更强的空间推理和对目标位置变化的鲁棒性。
在LIbero-Long上的结果：如图4所示，在长视野任务中，Monolift（平均成功率71.7%）显著优于其无蒸馏变体（w/o TriKD， 46.5%）和其他单目RGB基线。这表明蒸馏获得的三维感知能力对于理解任务序列、稳定执行多阶段操作至关重要。定性对比显示，无蒸馏模型因无法准确定位物体（如摩卡壶手柄、微波炉内部结构）而失败，而Monolift能成功完成。
消融研究结果：
TriKD各组件贡献：如图5(a)所示，完整的TriKD性能最佳。移除空间蒸馏或时序蒸馏会导致性能显著下降，尤其是在复杂场景中，证实了它们对于区分几何状态和保持状态转换一致性的重要性。移除动作蒸馏主要影响学习教师三维感知策略的能力。
TriKD的可迁移性：将TriKD（仅空间和时序）应用于RT-1后，其性能有所提升（图5(b)），证明了该蒸馏策略的通用性。但提升幅度小于Monolift自身，说明空间、时序、动作三者的结合具有互补优势。
深度质量的影响：如图5©，学生性能随着教师所用深度估计器质量的提升而提高。使用ViT-L估计器监督的学生性能已接近使用真实深度监督的性能。这表明Monolift通过蒸馏特征和动作分布而非原始像素，对深度估计中的局部误差具有一定鲁棒性，并能从有意义的深度结构中获益。
部署效率评估：如表2所示，Monolift的推理时间（18.1 ms）和参数量（8.5M）与纯RGB基线相同，远低于在推理时也使用深度估计的RGB-D基线（442.8 ms, 344.8M）。这证实了Monolift在保持部署轻量化的同时，通过训练时蒸馏获得了性能提升。
真实世界实验结果：如图6所示，Monolift在6个真实任务上平均表现优于其无蒸馏变体。在需要高精度定位的任务（如“按按钮”）中优势尤为明显（100% vs 20%）。在“举杯倒水”等需要精细空间对齐的任务中也表现更稳定。定性可视化（图7）展示了Monolift在各种任务中稳定、精确的控制行为。在“叠毛巾”任务上两者表现相近（均为20%），分析认为这是由于可变形物体几何不稳定、深度线索弱，且毛巾纹理均匀进一步削弱了深度引导教师的指导作用。
四、 研究结论与意义
本研究成功提出并验证了Monolift，一个高效的三维操作策略学习框架。其核心贡献在于，通过一种仅在训练时使用的、基于预训练深度估计器的知识蒸馏策略，成功地将深度信息提供的三维几何感知能力“注入”到仅使用单目RGB输入的学生模型中。这使得学生模型在部署时无需任何额外的三维传感器或计算开销，即可实现结构化感知和精确控制。
研究的科学价值在于： 1. 方法论创新：提出的三级知识蒸馏框架系统性地解决了单目RGB策略学习在空间、时序、行为三个层面的根本性缺陷，为跨模态知识迁移在机器人学习中的应用提供了新的思路和有效范式。 2. 性能突破：实验证明，该方法不仅在多个模拟和真实基准上超越了现有的单目RGB方法，甚至媲美或超越了部分依赖显式三维输入的方法，展示了通过算法设计弥补硬件局限性的巨大潜力。 3. 实用性与可部署性：Monolift在保持推理高效性（与纯RGB模型相当）的同时大幅提升了性能，为在资源受限的真实场景（如家用机器人、轻量级移动平台）中部署强大的视觉控制策略提供了切实可行的解决方案。
五、 研究亮点
核心创新点新颖：首次提出并系统实现了训练时仅用、推理时无需的深度引导蒸馏框架，巧妙平衡了三维感知性能与部署效率之间的矛盾。
三级蒸馏设计精妙：空间、时序、动作三个层面的蒸馏目标并非简单堆叠，而是针对单目RGB策略学习的三个核心短板（歧义、动态、决策）设计的互补性解决方案，消融实验充分证明了其必要性和协同效应。
实验验证全面扎实：研究在多个具有挑战性的模拟基准（LIbero-90, Meta-World, LIbero-Long）和真实的机器人操作任务上进行了广泛验证，涵盖了视觉歧义、精细控制、长视野规划等多种挑战，结论令人信服。
深度分析深入：不仅展示了最终性能，还通过系统的消融实验、可迁移性测试、深度质量影响分析等，深入剖析了方法各组件的作用机制和鲁棒性，增强了研究的深度和科学性。
六、 其他有价值内容
研究在讨论部分也坦诚地指出了当前方法的局限性：尽管训练阶段利用了深度引导的教师模型，但框架并未显式地建模深度估计中的不确定性或潜在错误。在现实世界中，由于遮挡、镜面反射、透明材料或传感器干扰等因素，深度估计器可能产生不准确或不稳定的输出。虽然Monolift通过蒸馏特征和动作分布对局部噪声有一定鲁棒性，但在视觉复杂或模糊的条件下，不准确的深度信号仍可能对几何理解构成挑战。研究者提出，未来的工作可以探索不确定性感知的蒸馏机制，根据深度估计的可靠性自适应地调整指导强度，从而在更具挑战性的场景中进一步提升鲁棒性。这一思考为后续研究指明了有价值的改进方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问