GraphGrasp：一种轻量高效的图引导六自由度机器人抓取姿态估计网络

分享自：
GraphGrasp：一种轻量高效的图引导六自由度机器人抓取姿态估计网络

期刊:The Fortieth AAAI Conference on Artificial Intelligence (AAAI-26)
关于GraphGrasp：一种轻量高效的图引导6自由度机器人抓取姿态估计网络的学术研究报告
一、 研究团队与发表信息
本研究的主要作者为来自北京理工大学的Sheng Yu、Di-Hua Zhai（通讯作者）和Yuanqing Xia，以及中原大学的Yuanqing Xia。该研究论文以“GraphGrasp: Lightweight and Efficient Graph-Guided 6-DoF Robotic Grasp Pose Estimation Network”为题，发表于人工智能领域的顶级会议之一——第40届AAAI人工智能会议（AAAI-26）的会议论文集中。
二、 学术背景与研究目标
本研究的科学领域属于机器人学与计算机视觉的交叉领域，具体聚焦于机器人6自由度（6-DoF）抓取姿态估计。对于具身智能机器人而言，灵巧、可靠地抓取物体是一项至关重要的基础技能。传统方法依赖于物体的3D模型或物理参数，泛化能力差，难以应对未知物体。近年来，数据驱动的深度学习方法成为主流，其中6-DoF抓取方法相比2D平面抓取能提供更大的灵活性，更接近人类的抓取方式。
然而，现有方法存在两个主要挑战：1）性能与效率的权衡问题：为了提升抓取预测的准确性，许多方法采用参数庞大的骨干网络（如MinkUNet）进行特征提取，导致模型参数量大、推理速度慢；而轻量级网络虽然速度快，但往往忽略了点云的几何与图结构特征，难以有效识别物体的可抓取区域，导致预测精度下降。2）对场景与物体关系的建模不足：现有方法通常将抓取预测视为对孤立点云的处理，未能充分利用场景中物体间的空间关系以及物体表面可抓取点之间的内在关联。
针对上述挑战，本研究旨在提出一种新的解决方案，其核心目标是：设计一个既能保持高精度，又具备高计算效率的6-DoF抓取姿态估计网络。具体而言，研究团队希望利用图神经网络（GNN）来显式地建模点云数据的图结构，从而更有效地理解场景、分离物体并探索可抓取点，最终在显著减少模型参数量的同时，达到与最先进（SOTA）大参数模型相媲美的性能。
三、 研究方法与详细流程
GraphGrasp的整体流程是一个三级图构建与推理的过程，如图2所示。其输入是场景点云，输出是预测的6-DoF抓取姿态（包括旋转、平移和夹爪张开宽度）。整个方法包含三个核心步骤：场景图构建、物体图构建和抓取图构建与评估。
1. 场景图构建：基于局部-全局特征的图嵌入 首先，对输入的场景点云进行随机下采样，构建一个初始的K近邻（KNN）图，其中每个节点代表一个点，并与随机连接的32个邻近点相连。为了有效建模包含背景和物体的整体场景，研究者提出了一个基于局部-全局特征的图特征嵌入方法。 * 局部特征提取：计算图的多跳特征，并通过结合最大池化和平均池化特征生成一个局部注意力矩阵，用于对多跳特征进行局部调整。 * 全局特征自增强：考虑到抓取预测中全局信息（如物体整体姿态、避免碰撞）比局部细节更重要，研究者设计了一个全局自增强模块。该模块首先通过多层感知机（MLP）和全局平均池化从局部特征中提取全局特征，然后利用该全局特征对原始多跳特征进行增强，使网络能关注到对抓取决策至关重要的整体上下文信息。 * 位置编码：点云的位置信息对图构建至关重要，因此对点云坐标进行编码，生成位置嵌入特征。 最后，将局部特征、全局增强后的特征和位置嵌入拼接，并通过图卷积进一步提取和更新特征，形成最终的场景图特征。这一步骤使网络获得了对抓取场景的初步整体理解。
2. 物体图构建：基于图Transformer的物体点云分离 场景图包含了所有背景和物体点。为了聚焦于待抓取物体，需要将物体点云从背景中分离出来。研究者将此问题转化为图节点的二分类问题（物体 vs. 非物体），并提出了一个新颖的图Transformer模块来精确实现这一分类并构建物体图。 * 该模块以场景图特征作为输入，生成查询（Query）、键（Key）和值（Value）张量。 * 通过爱因斯坦求和约定（einsum）计算注意力图，并生成调整后的特征。 * 同时，在值（Value）分支上，通过创建一个随机图邻接矩阵并添加自循环，构建了一个图结构，从而生成图特征。 * 将注意力调整后的特征与图特征相加，再通过MLP并与原始场景图特征残差连接，得到最终的物体图特征。 * 利用这些特征，一个二分类器被训练来区分节点是否为物体表面点。在训练过程中不断调整，最终保留被分类为物体表面的点及其连接，形成物体图。这一策略使网络能够充分理解物体间的空间位置关系，并精准地连接物体点云。
3. 抓取图构建与多指标、多层次评估 这是本研究的核心创新之一。为了在物体表面准确预测和探索可抓取点，研究者设计了一个多指标、多层次的抓取姿态评估算法，并基于此构建抓取图。 * 多指标评估：算法定义了五个指标来综合评价一个候选抓取姿态的质量： 1. 平面度：评估夹爪接触面的平坦程度，平坦的接触面更稳定。 2. 稳定性：评估夹爪闭合方向与接触面法向量的对齐程度，对齐性好则物体不易滑动。 3. 质心度量：评估夹爪闭合向量是否指向物体质心，越指向质心，抓取越稳定。 4. 碰撞度量：评估夹爪端点与接触点之间的距离，用于避免碰撞。 5. 力闭合度量：直接评估抓取姿态的力闭合质量。 最终抓取得分由这五个指标的加权和计算得出。 * 多层次评估：考虑到在杂乱场景中，位于中心的可抓取点更容易“跳转”到周围点，而边缘点则较难，研究者引入了“跳数”概念。根据抓取得分的高低，为节点分配不同的跳数等级，得分高的节点能进行更多跳的探索，这有助于网络优先探索高质量抓取区域。 * 抓取图构建：利用物体图特征，通过一个3层图卷积网络进行细化，并回归预测每个节点的抓取得分和跳数等级。选择得分最高的前K个节点作为抓取图的节点。在训练过程中，通过调整网络参数，不断优化抓取图及其特征。抓取图中的节点即代表了场景中预测出的可抓取点。
4. 抓取姿态生成与损失函数 在获得抓取图节点（即可抓取点）后，遵循GraspNet的方法，通过构建多尺度圆柱区域来预测抓取姿态的具体参数（接近向量、操作参数等）。网络的训练损失函数由多个部分组成，包括物体图构建的二元分类损失、抓取得分和跳数等级的回归损失（使用Huber损失）、夹爪张开宽度和旋转角的回归损失，以及夹爪接近方向的角度损失。总损失是这些损失的加权和。
四、 主要实验结果与分析
研究在大型公开数据集GraspNet-1Billion上进行了全面的实验验证，并与多种现有方法进行了比较。
1. 在GraspNet-1Billion数据集上的性能 如表1所示，GraphGrasp在“已见”、“相似”、“新颖”三类测试集上均取得了优异的性能。尽管GraphGrasp被归类为轻量级模型，但其平均精度（AP）显著超越了其他轻量级模型（如GraspNet, FGC-GraspNet），并与参数量大得多的SOTA方法（如GSNet, MTGrasp）性能接近，甚至在部分指标上有所超越。例如，在“相似”物体集上，GraphGrasp的AP达到了56.91%，优于GSNet的54.81%。
更关键的是参数效率：如表2所示，GraphGrasp仅包含约320万个参数，这大约是GSNet（1540万参数）的1/5，MTGrasp（1760万参数）的1/6，但与它们达到了相近的性能水平。这充分证明了其“轻量高效”的设计目标。
可视化对比（图3）进一步证实了GraphGrasp的优势。与GraspNet和GSNet相比，GraphGrasp能够为场景中更多物体预测出有效的抓取姿态，且预测的抓取姿态更符合物理规则（减少穿透和碰撞），同时预测置信度（图中红色表示高置信度）更高。
2. 消融实验 如表3所示，消融实验系统地验证了各个提出模块的有效性。 * 移除所有新模块（局部-全局图嵌入LGE、图Transformer模块GT、多指标多层次评估EVA）后，网络性能大幅下降。 * 单独使用LGE或GT都能提升性能，其中GT带来的提升更大，因为它能更有效地分离物体节点。 * 同时使用LGE和GT能带来进一步的性能增益。 * 引入EVA评估算法（无论是与LGE还是GT结合）都能显著提升性能，证明了其多指标引导网络学习高质量抓取姿态的有效性。 * 当所有模块共同作用时，网络达到最佳性能，验证了整体架构设计的合理性与必要性。
3. 真实世界抓取实验 为了测试泛化能力，研究在真实机器人（UR3）上进行了抓取实验，包括单物体和多物体杂乱场景。 * 姿态估计可视化（图4）：在真实场景中，GraphGrasp相比GraspNet和GSNet展现出更好的泛化性，能有效预测更多物体的抓取姿态，且姿态多分布在物体中心附近，可靠性高。 * 抓取成功率（表4）：GraphGrasp取得了92.1%的平均抓取成功率，优于GSNet的89.8%和GraspNet的85.7%，证明了其在真实应用中的优越性。
研究也指出了当前方法的局限：对于形状极其复杂的物体，其可抓取几何特征不明显；对于小尺度物体，由于点云噪声导致点数少，可预测的抓取姿态较少，有时会导致抓取失败。
五、 研究结论与价值
本研究成功提出并验证了GraphGrasp，一种基于图引导的、轻量且高效的6-DoF机器人抓取姿态估计网络。通过构建场景图、物体图和抓取图的三级推理框架，并创新性地引入局部-全局图嵌入、图Transformer物体分离以及多指标多层次抓取评估算法，GraphGrasp实现了对点云图结构的充分挖掘和利用。
其科学价值在于：为解决机器人抓取中“精度-效率”难以权衡的经典问题提供了一种新颖的图神经网络解决思路，证明了通过精心设计的图结构建模，可以在不依赖庞大特征提取网络的前提下，实现对场景几何与拓扑关系的深度理解，从而达成高性能的抓取预测。
其应用价值显著：GraphGrasp以仅约SOTA方法1/5的参数量，实现了与之相媲美的抓取精度，并显著提升了预测速度。这使得其更适合部署在计算资源有限的嵌入式系统或需要实时响应的机器人平台上，推动了高性能抓取算法向实际应用的落地。
六、 研究亮点
创新的三级图推理框架：首次从场景、物体、抓取三个层次系统性地构建和利用点云图结构，实现了对抓取任务由粗到细的渐进式理解。
高效的图特征嵌入与物体分离方法：提出的局部-全局特征图嵌入和基于图Transformer的物体图构建方法，能够高效且精准地从复杂场景中提取和分离目标物体信息。
新颖的多指标多层次抓取评估算法：该算法综合了几何、物理等多维度指标，并引入拓扑“跳数”概念，能够更智能、更鲁棒地引导网络探索和评估物体表面的高质量抓取点。
卓越的精度-效率平衡：这是本研究最突出的亮点。GraphGrasp在保持高抓取预测精度的同时，将模型参数量降低了一个数量级，实现了“轻量级网络，SOTA级性能”的突破，为实时、高效的机器人抓取提供了切实可行的解决方案。
七、 其他有价值的内容
本研究提供了完整的代码开源（https://github.com/bit-robot-group/graphgrasp），有利于学术界和工业界复现结果、进行比较研究或进行二次开发。论文中对损失函数、实验实施细节（如点云数量、图连接数、损失权重等）的描述非常详尽，为后续研究提供了重要的参考。此外，在真实机器人实验部分对失败案例的分析，也为未来研究指明了改进方向（如处理复杂形状和小物体）。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问