基于改进生成残差网络的抓取姿态估计新方法:MetaCoorNet

自动化机器人抓取姿态估计领域的新突破——MetaCoorNet网络

学术背景与研究问题

机器人抓取是机器人技术中的一项基础挑战,其核心在于如何使机器人能够与环境互动,完成对象拾取和操控任务。尽管自动化抓取技术在工业制造、家用辅助和零部件组装等领域表现出了巨大潜力,但其应用却面临诸多困难。例如,抓取对象形状、尺寸、材质等的多样性以及环境中的复杂因素(如遮挡和光照变化),都会对抓取算法的稳定性和真实性构成挑战。除外,采集传感器数据噪声和机械手本身复杂的机械设计也为实现高精度的抓取增加了难度。

在这一背景下,抓取姿态估计成为掌控机器人抓取动作的关键技术。抓取姿态估计是一个回归问题,目标是根据视觉输入数据(如RGB或点云图像)预测最适合的抓取点及对应的角度。近年来,随着深度学习技术的快速发展,更多研究开始尝试通过神经网络解决这一问题。然而,现有方法仍面临计算复杂度较高、训练数据需求大以及泛化性不足等难题。

为了应对上述问题并推动领域的进一步发展,Anhui University的Hejia Gao、Chuanfeng He、Junjie Zhao和Southeast University的Changyin Sun等学者提出了MetaCoorNet (MCN),一种由生成残差网络改进而来的轻量级深度学习模型。本文同时介绍了该方法的创新之处及其在Cornell和Jacquard标准抓取数据集上的优秀表现。

来源与发表信息

本文由来自安徽大学、东南大学及相关实验室的研究团队撰写,发表于2025年《Science China Information Sciences》第68卷第3期。文章在线发布于2025年1月,相关DOI为10.1007/s11432-024-4157-7。

研究方法与流程

研究流程:
本研究提出并设计了MetaCoorNet网络,该网络包含输入层、特征提取层、特征融合层及输出层四个主要部分。每个部分均配备了独特而高效的模块以提升网络性能。此外,该研究通过在Cornell和Jacquard两个公共数据集上进行实验,并辅以实物机器人抓取实验验证,证明了方法的有效性和鲁棒性。

1. 网络架构设计:

  • 输入层 (Input Layer):
    输入层接收经过预处理的多通道图像数据(如RGB-D图像),并通过具有32个滤波器的卷积层提取初始特征。

  • 特征提取层 (Feature Extraction Layer):
    该层包含两个MetaCoor模块(MCB)和三个残差块(Residual Blocks),结合使用了坐标注意机制(CA, Coordinate Attention)。MCB模块通过嵌入位置信息的方式,在通道注意力中提升了特征选择效率,同时其3×3卷积核捕捉图像的空间特征。残差块能够防止梯度消失,同时使网络更稳定地学习到深层特征。

  • 特征融合层 (Feature Fusion Layer):
    这一层包括重复空间卷积模块(RepSO)、通道精炼模块(RefCO)和卷积融合块(CFB)。RepSO强化了空间信息,RefCO通过注意力机制提升了特征的分辨能力,而CFB则系统性地融合了空间和通道特征,生成富有表现力的高维特征。

  • 输出层 (Output Layer):
    输出层通过转置卷积将特征图还原至输入图像的空间分辨率,并通过多个卷积层输出抓取的质量分数、角度及开口宽度等关键信息。

2. 实验设计:

  • 公共数据集测试:
    在Cornell(8019个抓取注释)和Jacquard(496万个抓取注释)数据集上训练和测试,优化算法采用Adam优化器,学习率设定为0.001,批量大小为8,训练50个epoch。

  • 真机实验验证:
    通过Kinova机器人手臂(具备七自由度)和Intel RealSense D435相机进行实际实验,测试其在单物体、多物体及透明物体抓取任务中的成功率。实验中的评价指标包括抓取成功率和执行速度。

核心结果与发现

  • 数据集实验结果:
    在预测抓取姿态的精确度方面,MetaCoorNet在Cornell数据集上取得了98%的准确率,在Jacquard数据集上取得了91.2%的准确率,显著高于已有方法。这表明MCN能够很好地应对抓取对象形状和环境复杂性的变化。

  • 性能分析与速度对比:
    与现有模型相比,MCN的推理时间仅为20毫秒(与最快模型相当),展示了其高效性和实时性能。

  • 机器人抓取实验:
    在真实环境下,MCN在处理遮挡物、多样物理特性及场景变化时表现出色。实验中的抓取成功率达93.6%,在工业应用场景中具备实际意义。

研究价值与意义

MetaCoorNet通过优化网络架构,提出轻量且高效的抓取姿态估计方法,解决了许多当前抓取算法的困境。不仅如此,该研究提出的模块(例如MCB和CFB)在其他视觉任务(如目标检测、姿态估计)中同样具有潜在的广泛应用价值。

亮点总结: 1. 独创性地融合空间和通道信息,同时嵌入位置信息,提升抓取精度; 2. 高效轻量化设计,适合实时抓取任务; 3. 支持复杂场景下的多目标抓取及透明物体处理。

展望与未来方向

文章作者亦指出本研究在真实环境数据和多目标抓取等方面的一些不足,并提出未来可扩展的研究方向,包括: 1. 结合真实场景数据: 提升模型对传感器噪声和光照变化的鲁棒性。 2. 适应多样抓取工具: 针对不同末端执行器设计多样化的抓取表示方法。 3. 引入物理约束: 将机器人运动学、动力学以及环境约束融入抓取决策。 4. 探索多目标操作: 实现多个物体的同时抓取和操控能力。

MetaCoorNet为机器人抓取领域提供了新视角和技术思路,对推动机器人在工业自动化、服务机器人及辅助技术等应用中的创新具有重要意义。