用于机器人料箱拣选的视觉感知技术综述

分享自：
用于机器人料箱拣选的视觉感知技术综述

自动化
信息科学
期刊:robotics and autonomous systemsDOI:10.1016/j.robot.2025.105236
【点击此处】阅读全文、收藏及针对性提问
本文题为《A review of visual perception for robotic bin-picking》，作者为Artur Cordeiro, Luís Freitas Rocha, José Boaventura-Cunha, Daniel Figueiredo, João Pedro Souza，分别来自葡萄牙INESC TEC研究所、波尔图大学工程学院、UTAD大学以及PALBIT公司。该论文于2025年10月在线发表于期刊《Robotics and Autonomous Systems》第196卷。
这篇论文是一篇关于机器人无序抓取（Robotic Bin-Picking）领域中视觉感知技术的系统性综述。无序抓取是工业自动化中的一项关键且极具挑战性的任务，要求机器人从杂乱无章的箱子、盒子或容器中自动识别、定位、姿态估计并抓取物品。其中，视觉感知系统是实现这一任务的“眼睛”和“大脑”，负责理解环境、定位目标、估计其姿态以及预测可行的抓取点。尽管从传统的分析方法到现代的深度学习方法都取得了显著进展，但由于实际工业场景的复杂性（如物体无纹理、形状不规则、相互遮挡严重、环境动态变化等），该领域仍然存在诸多挑战，也因此不断涌现出创新的解决方案。本文旨在回顾自2009年至2024年初，在机器人抓取特别是无序抓取操作背景下，视觉感知方法的发展脉络，提供详细的方法描述和讨论，并对该领域的进展进行全面的概述，以期为研究人员和工程师提供清晰的路线图和技术参考。
本文首先对机器人无序抓取系统进行了框架性梳理。论文指出，一个完整的机器人抓取系统通常包含三个主要阶段：传感（Sensing）、感知（Perception）和执行（Actuation）。本文的核心焦点在于“感知”阶段，并将其定义为机器人理解其周围环境并提取可操作信息的过程。为了澄清文献中术语使用不一致的问题，作者提出了一个专门针对无序抓取的清晰感知阶段划分标准，将感知过程进一步解构为三个核心子任务：物体定位（Object Localisation）、姿态估计（Pose Estimation）和抓取预测（Grasp Prediction）。其中，物体定位旨在确定物体在2D或3D空间中的位置（不含朝向）；姿态估计则进一步计算物体的位置和完整的朝向（6D姿态）；而抓取预测则是在给定物体和场景信息的基础上，生成满足特定夹持器类型、环境和效率约束的可能抓取点或抓取姿势。这种结构化的分类有助于更精确地分析和比较不同研究工作。
为了系统性地分析各种感知方法，作者提出了一个通用的感知系统框架，每个感知阶段（定位、姿态估计、抓取预测）都可以从三个核心要素来考察：输入（Input）、方法（Methodology）和输出（Output）。输入数据通常根据维度分为2D（如RGB图像）、2.5D（如深度图）和3D（如点云）。输出形式则多样，包括边界框、像素级掩膜、点坐标、热图（概率图）以及包含位置和朝向的姿态向量或抓取矩形框等。最为关键的是方法学分类，论文针对每个感知子任务都提出了细致的分类体系： * 物体定位方法分为：实例级（Instance-level），识别和定位已知的特定物体实例；类别级（Category-level），定位一个类别中先前未见过的新物体；以及无模型（Model-free），在没有任何先验物体模型或类别知识的情况下进行定位。 * 姿态估计方法也沿用了相似的分类：实例级、类别级和无模型。 * 抓取预测方法的分类则有所不同，分为：任务依赖型（Task-dependent），根据后续的操纵任务（如分离缠绕物体）来规划抓取；模型自由型（Model-free），不依赖物体CAD模型，通常基于学习或几何启发式方法；以及模型驱动型（Model-based），利用物体的精确3D模型来计算机械上可行的抓取。
此外，所有方法在广义上还可被归为两大类：分析式方法（Analytical Approaches） 和数据驱动方法（Data-driven Approaches）。分析式方法依赖于数学推理、几何特征和启发式规则，其结果具有较好的可解释性和确定性；而数据驱动方法（尤其是深度学习）则从大量数据中学习模式和特征，在复杂、非结构化环境中表现出强大的适应性和鲁棒性。
论文的主体部分（第4、5、6节）正是按照上述的感知子任务划分，对2009-2024年间相关文献进行了深入的回顾和分析。
在物体定位部分，综述详细探讨了各类方法。实例级方法早期多采用分析式方法，如基于距离变换的分水岭算法用于分割点云，但近年已被数据驱动方法主导。以Mask R-CNN为代表的实例分割框架及其变体（如Part-aware网络、融合语义分割分支的改进）在工业零件定位中取得了高精度，而像PointNet++这样的网络则直接从3D点云中提取特征进行实例分割。类别级方法在无序抓取中应用相对较少，常见于对抗性物体（adversarial objects）或特定类别（如垃圾分类）的场景，代表性工作包括使用YOLOv6或PoseCNN/DenseFusion等框架进行物体检测和语义分割。无模型方法通常采用分析式途径，例如利用深度图进行边缘检测、平面拟合、轮廓分析或聚类来分离和定位物体，这类方法计算效率高、无需训练，但在物体形状复杂、重叠严重时可能失效。
在姿态估计部分，论文指出，尽管数据驱动方法势头强劲，但在处理高度杂乱和遮挡的工业场景时，分析式方法因其稳定性和对纹理缺失物体的鲁棒性，仍然是许多研究的首选。实例级姿态估计技术被进一步细分为模板匹配、基于点对特征、基于描述子和基于特征的方法。模板匹配方法通过离线渲染CAD模型的多视角模板，在线进行快速匹配（如使用FDCM算法）。基于点对特征的方法是研究热点，经典的PPF（Point Pair Feature）及其众多改进版本（如引入曲率信息、颜色信息的CPPF，以及结合语义部件的SPPF）通过高效的哈希表投票机制在杂乱场景中表现优异。特征方法则通过提取和匹配关键点（如使用FPFH描述子）来估计姿态，常辅以RANSAC和ICP进行精炼。数据驱动的姿态估计方法面临标注数据稀缺的挑战，但仍有重要进展。PoseCNN是一个里程碑式的工作，它通过卷积网络同时进行语义分割、3D平移估计和3D旋转回归。DenseFusion则创新性地融合了RGB特征和点云特征进行像素级的姿态预测和优化。以PointNet/PointNet++为骨干的网络（如PPR-Net, PPR-Net++）在点云实例分割和姿态联合估计方面取得了突出成果。类别级姿态估计旨在处理类别内形状差异，是一个新兴挑战，例如CPPF投票方法和HS-Pose框架。无模型姿态估计通常简化问题，例如使用主成分分析来估计物体的主要平面朝向。
在抓取预测部分，综述指出，由于抓取的复杂性，大多数先进解决方案仍针对特定夹持器（如真空吸盘或二指夹爪）设计。方法同样分为任务依赖型、模型自由型和模型驱动型。任务依赖型方法为解决特定难题（如抓取缠绕的线缆）而设计，例如通过训练网络预测“拾取”或“拉扯”动作的可行性热图，并规划相应的圆形轨迹来解缠物体。模型自由型方法不依赖物体CAD模型，其中分析式方法通过分析深度图中的边缘、角点或使用预定义的夹持器模板卷积来评估抓取可行性；数据驱动方法则大量使用深度学习，常见架构包括以ResNet为编码器的U-Net预测抓取质量热图，或以PointNet++为基础直接回归抓取姿势、类型和置信度。GQ-CNN是一个代表性框架，它使用合成数据训练，基于力闭合等分析指标来评估抓取鲁棒性。模型驱动型方法利用物体的精确3D模型，结合物理模拟或分析度量来离线计算高质量的抓取方案。
除了对技术方法的详细回顾，论文还特别强调了实际应用中的关键考量因素。这包括对使用场景的分类（如工业场景、家庭场景）、杂乱程度的划分（低、中、高）、物体属性的描述（无纹理、有颜色、对抗性物体）以及传感器配置的选择（眼在手-Eye-in-hand 与 眼在外-Eye-to-hand），并分析了各自的优缺点和适用情况。
这篇综述的重要价值和意义在于：第一，它提供了一个清晰、统一且专门针对机器人无序抓取领域的视觉感知技术分类学框架，有效梳理了庞杂的研究成果，方便研究者定位和比较不同工作。第二，论文不仅总结了技术发展历程，还深刻揭示了不同方法之间的权衡关系，例如分析式方法与数据驱动方法在可解释性与泛化性之间的权衡，实例级、类别级与无模型方法在精度与灵活性之间的权衡，以及模型驱动与模型自由抓取在精确性与通用性之间的权衡。第三，通过覆盖从2009年到2024年初的广泛文献，论文清晰地展示了该领域从依赖传统几何与启发式方法，到深度学习逐渐兴起并解决特定难题，再到目前多种方法融合共存的演进趋势。第四，论文始终围绕工业应用这一核心背景展开，所选取和讨论的工作大多面向真实的、具有挑战性的工业环境，这使得综述的结论和建议对推动机器人自动化在实际生产中的落地具有直接的参考价值。
论文的亮点体现在其系统性和前瞻性。系统性在于构建了多维度的分析框架（任务阶段-方法分类-输入输出），使综述结构严谨、条理分明。前瞻性则在于它不仅回顾过去，还通过梳理现有方法的局限（如数据依赖、对无纹理物体和极端遮挡的处理能力不足等），间接指明了未来可能的研究方向，例如发展更高效的类别级与无模型感知方法、探索仿真到真实世界的更好迁移策略、以及开发能适应多种夹持器和复杂任务的通用抓取系统。这篇综述是机器人无序抓取领域视觉感知研究的一份详尽地图和重要参考，对学术界和工业界的相关从业者都具有很高的阅读价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问