作者及机构
本研究的通讯作者为上海工程技术大学电子电气工程学院的胡凌燕(Lingyan Hu*),合作作者包括付永康(Yongkang Fu)和徐冬梅(Dongmei Xu)。研究成果发表于2024年第四届计算机科学与区块链国际会议(4th International Conference on Computer Science and Blockchain, CCSB),会议论文集由IEEE出版,DOI编号10.1109/CCSB64663.2024.10735531。
研究领域与动机
该研究属于机器人视觉引导装配(vision-guided robotic assembly)领域,聚焦于轴孔装配(peg-in-hole assembly)中的关键问题——圆形装配孔的姿态估计(pose estimation)存在多解性(ambiguity problem)。传统基于单目视觉的PNP(Perspective-n-Point)算法在圆形特征倾斜时会产生多个可能的解,导致机械臂装配失败。
科学问题与目标
现有方法如LV的一维单应性算法[3]、Xu的混合视觉测量[4]等,或缺乏鲁棒性,或依赖高质量图像。本研究提出一种结合PNP算法与轮廓深度提取的两阶段视觉识别策略,旨在解决以下问题:
1. 光学轴偏差:圆形孔偏离相机光轴时,透视投影导致椭圆拟合误差;
2. 姿态多解性:倾斜圆孔在图像中投影为椭圆时,存在旋转方向歧义(如图6所示);
3. 复杂场景干扰:非结构化环境中背景噪声对目标分割的影响。
深度学习分割
- 模型选择:采用YOLOv5s(You Only Look Once version 5 small)进行目标检测,其轻量化特性适合移动端部署。
- 数据训练:建立装配零件数据集,训练后获得优化权重模型,实现复杂环境中目标区域的精准分割(图1对比效果)。
图像预处理流程(图2)
1. 灰度化与降噪:9×9高斯核(标准差σ=2)卷积滤波;
2. 边缘检测:Canny算法提取轮廓,结合RDP(Ramer-Douglas-Peucker)算法简化冗余点;
3. 椭圆拟合:最小二乘法(Least Squares)拟合椭圆方程(式1),筛选条件包括轮廓面积阈值、长短轴比例等。
第一阶段:位置识别
- 光轴对齐:通过椭圆中心坐标(x₀, y₀)和深度值d₀,利用相机内参(fₓ, fᵧ, cₓ, cᵧ)计算实际空间坐标(式2-4),引导机械臂调整至孔中心正上方。
第二阶段:姿态估计
- PNP初始解:选取椭圆长短轴端点作为4个特征点(P4P问题),求解初始姿态q₁;
- 深度消歧:提取椭圆长轴两侧轮廓的深度值,比较后确定Y轴旋转方向(图7);
- 最终姿态:结合机械臂末端位姿q₂,通过欧拉角修正q₁的多解性,输出无歧义装配姿态(图8)。
硬件平台(图9)
- UR3协作机械臂(重复精度±0.03mm);
- Intel RealSense D435i深度相机(视场角85°×58°)。
实验结果
- 定位精度:20次实验中,X/Y方向平均误差分别为0.6719mm和0.7637mm(图10);
- 姿态误差:三组倾斜孔实验中,本文方法(p₂)的平均俯仰角(pitch)误差为1.0874°,显著优于直接PNP(p₃)的6.33306°(表1);
- 多解消除:p₃出现8次歧义解,而p₂全程无歧义。
科学价值
1. 理论创新:提出“深度-拟合联合消歧”机制,通过椭圆轮廓深度比较解决PNP多解问题;
2. 方法鲁棒性:两阶段识别策略降低光学轴偏差影响,适用于非结构化场景。
应用价值
- 工业装配:平均位置误差<0.8mm,姿态误差°,满足高精度装配需求;
- 低成本部署:仅需单目RGB-D相机与通用机械臂,无需多传感器融合。
资助信息
本研究获上海市科委(23010501700)、江西省卫健委(2023ZD008)及上海医药智能装备工程技术研究中心(20dz2255900)支持。
(注:全文约2000字,严格遵循学术报告格式,未翻译作者名及期刊名称,专业术语首次出现标注英文原文。)