分享自:

基于多层神经网络与机器视觉的数字孪生环境下机械运动数据采集方法

期刊:digital twinDOI:10.12688/digitaltwin.17441.1

关于《机械运动数据采集方法基于多层神经网络与机器视觉在数字孪生环境中》一文的学术研究报告

一、 研究作者、机构及发表信息

本研究的主要作者为Hao Li, Gen Liu, Haoqi Wang, Xiaoyu Wen, Guizhong Xie, Guofu Luo, Shuai Zhang和Miying Yang。第一作者Hao Li及多位合作者来自郑州轻工业大学河南省机械装备智能制造重点实验室,合作机构还包括英国格林威治大学和英国克兰菲尔德大学管理学院。

该研究成果以学术论文形式发表于期刊《Digital Twin》(数字孪生),论文全称为“Mechanical movement data acquisition method based on the multilayer neural networks and machine vision in a digital twin environment”。论文的第一个版本(Version 1)于2021年10月14日正式在线发表,并已通过同行评审(2位审稿人批准)。论文的数字对象标识符(DOI)为:https://doi.org/10.12688/digitaltwin.17441.1。

二、 学术背景与研究目标

本研究属于智能制造与数字孪生技术交叉领域,具体聚焦于物理实体与虚拟模型同步过程中的数据采集关键技术。数字孪生要求物理设备与虚拟模型之间实现虚实映射与优化迭代,而物理设备机械运动数据的精确采集是实现高保真虚实同步的基础。

传统上,依赖可编程逻辑控制器(PLC, Programmable Logic Control)的数据采集方式,难以全面、快速地获取设备零部件在运动过程中的形状、位置、姿态和状态等多维度数据。同时,利用机器视觉技术进行虚实同步的研究尚不充分。随着多层神经网络的发展,机器视觉技术的性能得到提升,为在数字孪生环境中利用视觉方法进行数据采集提供了新的可能。然而,现有方法面临三大挑战:1)PLC模式难以满足虚实同步所需的快速、全要素数据采集;2)使用多目视觉定位时,需对各相机参数进行繁琐的测量与标定,且算法随相机数量增加而复杂化,传统多层神经网络对硬件要求高、训练需大量人工监督;3)相机镜头成像畸变会影响目标定位精度。

基于此背景,本研究旨在提出一种改进的、基于多层神经网络与机器视觉的机械运动数据采集方法。其核心目标在于:设计一套高效、准确的方案,以采集数字孪生环境中所必需的设备零部件的位置、姿态及运动信息,从而支撑高精度的虚拟与现实同步。

三、 研究详细流程与方法

本研究提出了一套完整的数据采集方法体系,主要包含三个核心步骤:视觉标志(Visual Mark)设计、视觉标志识别、基于多层神经网络的视觉标志定位。研究以一个ABB机械臂(型号IRB 1600-101.45)作为动作采集对象进行实验验证。

第一步骤:视觉标志的设计 为简化算法、提高识别准确性并减少神经网络处理的数据量,研究设计了一套统一的视觉标志,粘贴于运动物体上。标志采用同心圆结构,例如外白内黑或外黑内白。这种设计基于圆形特征在机器视觉中易于识别(利用霍夫变换可精确找到圆心与半径),且鲜明的颜色对比(利用直方图统计)便于从背景中分离。同心圆结构为内部圆圈提供了单色基底,形成较大的色差。研究将这两种颜色组合分别编码为“01”和“10”,便于未来可能的组合使用。对标志材料的要求包括:在普通荧光灯和自然光下颜色稳定,且需避免镜面反射,因此选择了漫反射或荧光材料。

第二步骤:视觉标志的识别 识别算法融合了形状特征与颜色特征。首先,相机捕获的图像被转换为灰度图,并使用拉普拉斯算子进行边缘检测,得到边缘图像f'1(x,y)。然后,对边缘图像应用霍夫变换圆检测算法,找出图像中所有可能的圆形区域及其圆心(a, b)和半径r。然而,环境中可能存在其他近似圆形物体造成误检。为此,算法进一步利用颜色特征进行筛选:在霍夫变换确定的每个候选圆形区域内,进行局部颜色直方图统计。视觉标志具有特定的颜色分布(例如,在像素值21-65和205-244范围有明显峰值,分别对应标志中心点和背景色)。通过匹配这种独特的直方图特征,可以从众多候选圆中准确识别出真正的视觉标志,并最终输出其在图像中的二维坐标(x, y)和半径r。实验开发了基于OpenCV 3.1.0的程序实现该识别算法。

第三步骤:基于多层神经网络的视觉标志定位 此步骤的目标是将来自多个相机的二维图像坐标,转换为视觉标志在三维空间中的坐标(x, y, z)。本研究创新性地采用了多层神经网络来拟合从多视图二维坐标到三维坐标的映射关系,从而规避了传统的复杂相机标定过程和三角测量算法,并能自动校正镜头畸变。 * 神经网络结构:网络被构建为一个回归预测模型。输入层节点数为3×n(n为相机数量,每个相机输入为视觉标志的x, y, r,共3个参数)。输出层节点数为3(对应三维坐标x, y, z)。根据性能经验,设置了2个隐藏层。为防止过拟合,训练中采用了Dropout算法,因此隐藏层节点数设置得比输入层多。节点激活函数采用ReLU函数。 * 训练样本生成:这是本研究的一个关键特色,实现了训练样本的半自动生成。利用ABB机械臂可编程、能匀速重复运动的特点,控制其携带视觉标记在相机视野空间内遍历。两台相机(型号Kingcent KS4A418-D)以固定帧率(30帧/秒)同步采集图像。通过前述识别算法从每帧图像中提取视觉标志的二维坐标数据。同时,根据机械臂的运动速度和每帧图像的拍摄时间,可以计算出视觉标志在该时刻对应的精确三维空间坐标(基于已知的运动轨迹和速度)。这样,每一对“多相机二维坐标集”与“计算得到的三维坐标”就构成了一个标注好的训练样本,格式为[(x1, y1, r1, x2, y2, r2), (X, Y, Z)]。通过让机械臂运行一个完整的运动周期,即可自动获得大量训练样本,避免了繁重的手动空间坐标标注工作。 * 神经网络训练与测试:研究使用Deeplearning4j(基于Java的神经网络框架)构建网络。具体参数设置为:输入层6节点(2个相机),输出层3节点,两个隐藏层节点数设为1100,学习率0.01。从生成的样本中,80%用作训练集,20%用作测试集。训练过程通过梯度下降法最小化预测三维坐标与真实坐标之间的误差,最终确定网络的权重和偏置参数。

实验验证: 实验分为识别实验和定位实验两部分。识别实验验证算法能否从复杂背景中稳定识别出视觉标志。定位实验则用采集到的1000个样本测试整个系统的性能,评估不同视觉标志尺寸(在图像中的半径)对识别成功率的影响,以及不同隐藏层节点数对定位精度的影响。

四、 主要研究结果与分析

  1. 视觉标志识别结果:实验结果表明,所设计的识别算法运行稳定。识别成功率高度依赖于视觉标志在图像中的尺寸。当视觉标志在图像中的尺寸大于6毫米时,识别算法的成功率可达95%以上。当尺寸小于4毫米时,识别误差显著增大。这一结果为实际应用中视觉标志的尺寸设计提供了关键数据支撑。
  2. 神经网络定位结果:定位实验以定位误差超过1毫米视为定位失败。结果显示,在视觉标志可识别范围内,神经网络双层隐藏层的节点数量对定位精度有重要影响。随着节点密度增加,定位精度提高;当节点数增加到一定程度(实验中为1100个节点)时,精度趋于稳定,此时算法计算精度最佳。这验证了所设计的网络结构参数的有效性。
  3. 系统整体效果:综合实验表明,在双相机、单视觉标志的设置下,当视觉标志在图像中的尺度大于6毫米时,该系统能够有效工作。通过神经网络算法处理定位数据,可以驱动ABB机械臂的数字模型,使模型与实体机械臂保持运动状态的同步。这直接证明了该方法用于采集物理设备动作信息、支撑数字孪生虚实同步的有效性。

结果的逻辑链条清晰:有效的视觉标志设计是基础,它决定了高成功率的识别;稳定识别出的二维坐标数据为神经网络提供了可靠的输入;通过合理结构和足够节点数的神经网络训练,实现了高精度的三维坐标映射;最终的系统同步演示验证了整个方法从数据采集到驱动虚拟模型的端到端可行性。每一步的结果都是下一步成功的前提,共同支撑了最终结论。

五、 研究结论与价值意义

本研究成功提出并验证了一种在数字孪生环境中,基于多层神经网络与机器视觉的机械运动数据采集方法。其科学价值在于: 1. 方法学创新:通过引入专门设计的视觉标志,将复杂的、需要处理百万像素级的原始图像识别问题,简化为对少数几个特征参数(圆心坐标、半径)的处理,极大降低了数据复杂度,使基于神经网络的实时定位变得可行。 2. 技术路径革新:采用多层神经网络直接学习多目视觉二维坐标到三维坐标的非线性映射关系,省去了传统多相机系统繁琐的标定步骤,并内在地补偿了相机镜头畸变,简化了系统部署与算法复杂度。 3. 流程优化:利用受控运动设备自动生成神经网络训练样本,解决了监督学习样本标注工作量大的难题,为工业场景下的实际应用提供了便利。

其应用价值显著:该方法为智能制造数字孪生系统中,实现物理实体运动、姿态数据的实时、精确、低成本采集提供了一种有效的技术方案。尤其适用于汽车白车身焊接生产线等复杂工况下,对设备部件运动状态进行非接触式、全要素监测的场景。

六、 研究亮点

  1. 问题导向鲜明:紧密围绕数字孪生虚实同步中数据采集的核心瓶颈——全要素、高效率、高精度需求,针对性地提出了融合视觉标志、传统图像处理与神经网络的混合解决方案。
  2. 方法融合巧妙:将传统的霍夫变换、直方图统计等鲁棒性强的图像处理算法,与具有强大非线性拟合能力的多层神经网络相结合。前者高效、可靠地完成特征提取,后者智能地解决坐标映射与畸变校正问题,发挥了各自优势。
  3. 训练样本生成策略新颖:利用可编程设备的匀速重复运动特性,自动化生成带精确三维坐标标签的训练数据,巧妙地规避了神经网络训练中数据标注的瓶颈,极具工程实用智慧。
  4. 实验验证充分:不仅提供了识别成功率、定位精度与关键参数(标志尺寸、网络节点数)的定量关系曲线,还通过完整的系统集成演示,直观展示了方法在驱动数字孪生模型同步方面的实际效果,论证完整。

七、 其他有价值内容

论文还包含了开放的科学实践:相关数据(如隐藏层节点数对定位精度的影响数据、采样点数据、1000个样本的图像识别结果等)已在Figshare平台公开(提供DOI)。用于实验的源代码也在GitHub上开源,并归档于Zenodo,提供了可复现性的基础,符合开放科学的原则。此外,文末附有两位审稿人的详细评审报告及作者可能的修改回应(报告中未展开),显示了严格的同行评审过程和学术交流。审稿人既肯定了研究的创新性和价值,也提出了诸如增加更多相关文献引用、增强图表可读性、扩展结论与应用背景等建设性意见,这对读者理解研究的完善过程也有参考价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com