本文(标题:A review on the deformation tracking methods in vision-based tactile sensing technology,作者:Benzhu Guo, Shengyu Duan, Panding Wang, Hongshuai Lei, Zeang Zhao, and Daining Fang,来自:Beijing Key Laboratory of Lightweight Multi-functional Composite Materials and Structures, Beijing Institute of Technology)发表于*Acta Mechanica Sinica*期刊2025年第41卷。这是一篇关于视觉触觉传感技术中形变追踪方法的综述性论文。
本文的核心主题是全面梳理和总结近年来在基于视觉的触觉传感(Vision-based Tactile Sensing)领域,特别是将传感器采集的实时图像转化为接触力、滑动、摩擦等形变信息的关键追踪方法。触觉对于机器人与环境的交互至关重要,而传统的触觉传感器(如压阻式、电容式、压电式)在分辨率、成本、抗电磁干扰或形状适应性方面存在局限。相比之下,基于视觉的触觉传感器利用微型相机捕捉弹性体表面的形变(如标记点移动、表面纹理变化),通过图像分析反推触觉信息,具有高分辨率、设计简单、成本较低、不易受电磁干扰等显著优势,已成为机器人触觉感知领域的研究热点与前沿。本文不同于以往侧重于传感器硬件机制或电子元件的综述,而是聚焦于底层的形变追踪算法,系统回顾了基于机械模型的方法和基于机器学习的方法这两大类技术的发展历程、现状与未来方向。
第一部分:形变追踪的两大技术路线
本文首先明确,视觉触觉传感技术的核心挑战在于如何准确、实时地将相机捕捉到的图像序列(表征弹性体表面形变)转化为量化的触觉信息。当前的解决方案主要分为两大类:基于机械模型的方法和基于机器学习的方法。
基于机械模型的方法依赖于预设的物理和力学理论来建立形变场(如位移、应变)与触觉信息(如力场)之间的数学映射关系。这类方法又可细分为基于有限元法(Finite Element Method, FEM)和基于弹性理论(Theory of Elasticity)的方法。其优势在于物理意义明确,模型具有可解释性。例如,GelSlim系列传感器利用逆有限元法(Inverse FEM)从测得的节点位移高效估计接触力分布;Bitac传感器则基于Mindlin-Reissner板壳理论建立有限元模型,实现了对表面法向力的双向感知。基于弹性理论的方法,如GelForce传感器,假设弹性介质为线性和均匀,通过测量表面牵引力场来估计施加力的大小和方向;而通过在GelSight等传感器表面添加密集标记点并追踪其位移场,可以结合弹性理论有效检测剪切力和滑动现象。这类方法的局限性在于通常需要对材料属性(如线性、均匀性)做出理想化假设,在复杂非线性或非均匀材料情况下可能不够精确。
基于机器学习的方法则不依赖于显式的物理模型,而是通过数据驱动的方式,利用算法直接从图像数据中学习形变与触觉信息之间的复杂映射关系。这主要包括基于支持向量机(Support Vector Machine, SVM)和基于神经网络的方法。其优势在于强大的非线性拟合能力和良好的适应性,尤其擅长处理难以用简洁数学模型描述的复杂关系。例如,研究人员将SVM集成到TacTip传感器中,利用内部销钉的运动速度作为输入,能够以超过99%的成功率预测物体是否滑动。神经网络,特别是卷积神经网络(Convolutional Neural Network, CNN),在该领域应用更为广泛。Yuan等人使用CNN从GelSight传感器的图像中直接提取接触力特征;OmniTact、InSight和MiniSight等传感器则采用了ResNet等更先进的CNN架构,能够从图像中直接输出高分辨率的三维接触力矢量图或全向力感知。此外,还有研究引入了图神经网络(如TacGraph)、时空网络(如ConvLSTM)以及定制化的深度神经网络来处理事件相机数据或多模态信息融合问题。机器学习方法面临的挑战包括需要大量标注数据进行训练、存在过拟合风险以及模型的可解释性相对较弱。
第二部分:典型传感器及其应用场景
为了具体说明上述方法的实现,本文按时间顺序梳理并对比了众多典型的视觉触觉传感器,并汇总成表格。这些传感器在原理、结构(是否使用标记点、指尖式还是其他形状)、主要功能上各有特色。例如: - GelSlim系列:基于FEM,从1.0到3.0版本不断迭代,集成了模型化的光度立体视觉和FEM,能同时感知形状、力和滑动。 - TacTip系列:基于弹性理论,仿生指尖结构,擅长边缘编码和轮廓跟踪。 - GelSight:最广泛应用的传感器之一,通过表面高反光涂层或密集标记点实现高分辨率形状和力感知。 - FingerVision:低成本、性能好,通过在透明皮肤上放置标记点,结合弹性理论估计力,并设计了多种操作策略。 - Digit/Digitac:低成本、紧凑型高分辨率传感器,DigitAc结合了Digit和TacTip的特点,并利用PoseNet CNN进行位姿预测比较。 - OmniTact/InSight/MiniSight:基于CNN的传感器家族,结构紧凑(如MiniSight仅拇指尖大小),能直接输出分布式的法向力和剪切力估计。
这些传感器在机器人操作中展现出广泛的应用潜力,主要集中在三个方面: 1. 机械臂抓取:视觉触觉传感器能提供接触力分布和初始滑动检测,帮助机械臂实现对易变形、脆弱物体(如蔬果、生鸡蛋)的稳定、自适应抓取,甚至应用于水下等光线不足的复杂环境。集成深度学习方法后,抓取系统的成功率和鲁棒性得到显著提升。 2. 机械臂手内操作:这是更具挑战性的前沿方向。例如,利用GelSight传感器提供的高分辨率触觉信息,可以实现对自由状态电缆的精确操控;结合Fin Ray柔性夹持器设计的GelSight Fin Ray,兼具自适应抓持和高品质触觉感知能力,能成功操作透明酒杯等物体;还有研究开发了能实现未知物体动态摆动操作的机器人系统(SwingBot)。 3. 物体识别:利用触觉传感器进行物体分类与识别。例如,非平面接触的DTact传感器能高质量重建接触物体的三维几何,用于物体分类;GelSight Baby Fin Ray在坚果分类实验中达到超过90%的准确率;GelSight EndoFlex三指灵巧手则展示了其通过单次抓取获取大量触觉信息以实现物体识别的能力。
第三部分:未来展望与论文价值
在结论部分,本文对视觉触觉传感技术的未来研究方向进行了展望。作者指出,最有前景的途径是理论模型与数据驱动技术的结合。具体的研究方向包括但不限于:适用于片上集成的触觉传感器降阶形变理论、能提高现有机器学习传感器预测精度的物理信息机器学习模型、适用于嵌入式控制系统的先进实验力学算法,以及涉及用于自动触觉识别的物理神经网络的高级传感器结构。
本文的学术价值在于: 1. 视角独特:不同于以往从硬件或传感机制入手的综述,本文首次系统性地聚焦于视觉触觉传感技术中最核心的“形变追踪方法”这一算法层面,为研究人员提供了清晰的技术脉络图。 2. 分类清晰:将庞杂的追踪方法明确划分为“基于模型”和“数据驱动”两大范式,并对每类中的子方法(如FEM vs. 弹性理论,SVM vs. 神经网络)进行了详细阐述和对比,逻辑层次分明。 3. 信息全面:不仅回顾了方法原理,还通过丰富的实例(众多传感器)和对比表格,将方法与具体实现、性能指标、应用功能紧密联系起来,使综述内容非常扎实。 4. 指导性强:通过梳理发展历程、对比方法优劣、总结应用场景并展望未来趋势,本文能为该领域的新进入者提供快速入门指南,为资深研究者提供创新灵感,并指明了跨学科融合(力学、计算机视觉、机器学习、机器人学)的未来发展方向,对于推动视觉触觉传感技术在智能机器人、人机交互等领域的深入应用具有重要意义。
这篇综述系统、深入地阐述了视觉触觉传感技术中形变追踪方法的发展全貌,是一篇对该领域研究人员具有重要参考价值的文献。