基于视觉增强的邻近与触觉双模态传感器:用于机器人操作的距离与几何感知
作者、机构与发表信息 本项研究的通讯作者为顾国瑛(Guoying Gu)教授,第一作者为董玥诗(Yueshi Dong)。所有作者均来自上海交通大学机械与动力工程学院机械系统与振动国家重点实验室以及上海市智能机器人重点实验室。该研究以《Look-to-Touch: A Vision-Enhanced Proximity and Tactile Sensor for Distance and Geometry Perception in Robotic Manipulation》为题,发表于学术期刊《IEEE/ASME Transactions on Mechatronics》。该论文于2025年3月26日收到,历经两次修订后,于2025年12月11日被正式接受发表。
学术背景与研究目标 本研究隶属于机器人感知与灵巧操作领域,具体聚焦于视觉触觉传感(Vision-Based Tactile Sensing, VBTS)技术的创新。在机器人技术中,触觉传感器对于感知接触压力、表面纹理和物体几何形状至关重要,使机器人能够适应操作任务中的不确定性。尽管基于视觉的触觉传感器因其高保真信息获取能力而广受关注,但单一的触觉模态往往不足以实现全面的环境感知。为了弥补这一局限,机器人通常需要集成额外的传感器(如接近传感器、外部摄像头),但这会导致系统笨重,并限制了其在非结构化环境中的适应性。现有的将接近感知与触觉感知集成的尝试,要么依赖于接触触发的被动模态切换,要么牺牲了高分辨率的表面表征能力,或缺乏明确的长距离测距功能。
因此,本研究旨在解决一个长期存在的挑战:设计一种能够集成长距离接近感知与高质量接触感知的双模态传感器。研究团队的目标是开发一种紧凑的、可主动切换的视觉增强型接近-触觉双模态传感器,使其能够在无需额外外部传感器的情况下,为机器人提供从远距离接近到精细接触的连续、全面的环境感知,从而提升机器人抓取和操作的效率与适应性。
详细工作流程 本研究的工作流程主要包括传感器设计与制造、两种感知模态的算法模型开发、传感器性能表征实验,以及集成应用验证四个主要部分。
第一部分:传感器设计与制造 研究团队设计并制造了一个名为“视觉-触觉手掌”(Visual–Tactile Palm, V-T Palm)的原型传感器。其核心结构可分为两大模块:模态切换模块和传感模块。 1. 模态切换模块:这是实现主动双模态感知的关键。该模块采用了一种机械驱动的可旋转皮带传动机制。皮带由厚度为0.1毫米的PET材料制成,其部分区域粘附了一层由墨水膜覆盖的弹性体(不透明触觉层)。通过一个360度连续旋转的舵机驱动涂有硅胶的主动轴,皮带可以在两个位置间切换:将不透明弹性体层移动到摄像头正上方时,传感器进入触觉感知模式;将其移开,使高透明度的PET区域位于摄像头前时,则进入接近感知模式。整个切换过程平均耗时0.78秒,由Arduino控制板根据主机算法命令协调执行。 2. 传感模块:两种模式共享相同的基础硬件。核心是一个单目变焦摄像头(OV5640),具有120度有效视角,以30帧/秒的速率捕获5百万像素的RGB图像。传感器顶部是一个3毫米厚的透明亚克力板,为柔性接触层提供支撑。传感器内腔采用黑色PLA 3D打印而成,以提供稳定的光学编码空间。照明系统是专门设计的:在底部靠近三个侧壁的边缘嵌入了RGB LED灯带,并在侧壁上均匀涂抹了白色涂料。通过这种漫反射设计,点光源被转化为面光源,从而为触觉成像创造了更均匀的照明条件,Blender软件仿真验证了此设计相较于直接点光源照明在光强分布上更为均匀。
第二部分:感知算法模型开发 1. 接近感知的非线性动态映射模型:在接近模式下,摄像头捕获外部环境的RGB图像。研究采用预训练的单目深度估计算法DepthAnythingV2将原始RGB图像转换为密集的像素级深度图。为了将算法预测的相对深度值映射到真实世界距离,研究团队建立了一个非线性校准模型。他们搭建了一个实验平台,让一个校准方块以不同速度沿摄像头中心轴从远至近(0-50厘米)移动,同步记录真实距离和摄像头图像。通过一个专门为此场景训练的U-Net分割网络对图像中的目标区域进行分割,并计算目标区域内深度预测值的均值。分析发现,在10-50厘米的实用区间内,预测值与真实距离呈单调关系。通过比较多种逆模型,最终选择双指数衰减模型进行拟合,该模型的决定系数R²达到0.9697,均方误差(MSE)为2.2462,表现出最佳的拟合精度。该模型建立了从图像深度均值到真实距离的映射函数。 2. 触觉感知的几何重建方法:在触觉模式下,不透明弹性体层作为接触界面。其表面形变由内部均匀光照下的摄像头捕获。为了从图像中重建接触表面的三维几何形状,研究采用了光度立体视觉(Photometric Stereo, PS) 原理。团队首先收集了训练数据:使用一个直径5毫米的标准球体随机按压传感表面,获取按压图像,并手动标注球形压痕区域。根据球体几何关系,可以计算出压痕区域内每个像素点对应的表面高度梯度的真实值(地面真值)。基于此,研究团队构建了一个全连接神经网络(FCNN),该网络的输入是每个像素的坐标(u, v)及其RGB通道的光强值(Ir, Ig, Ib),输出是该像素点的表面梯度(gu, gv)。该网络包含4个隐藏层,使用Adam优化器和L1损失函数进行训练。训练完成后,对于新的触觉图像,该网络可以预测出整个接触区域的梯度图。最后,通过求解二维泊松方程(采用基于傅里叶变换的方法求解),将梯度图积分重建为完整的三维深度图。
第三部分:传感器性能表征实验 1. 接近感知的距离测量精度测试:在10-30厘米的工作范围内,让目标方块以不同速度(2, 4, 10, 12.5, 17.5 厘米/秒)接近传感器。从每个速度的视频中提取对应特定距离(30, 25, 20, 15, 10厘米)的图像帧,应用深度估计算法、分割网络和非线性校准函数,得到预测距离。实验结果表明,在不同接近速度下,预测结果与地面真值保持一致且合理对齐。其中,在12.5 厘米/秒的速度下,模型达到了最高精度,R²为0.9551,MSE为2.2470。 2. 触觉感知的精细纹理捕获与形态重建测试: * 表面粗糙度识别:将不同粗糙度的砂纸(150, 280, 500目)按压在传感器表面。通过分析接触图像与无接触图像的差异,并进行频域分析(傅里叶变换)。结果显示,随着砂纸目数增加(颗粒变细),频域图像中的低频区域(代表大尺度纹理)显著缩小,而高频区域(代表精细纹理)相应扩大。这证明了传感器能有效区分表面粗糙度,其精细纹理传感分辨率比人类指尖触觉感知系统高出约6至8倍。 * 接触表面几何重建:使用直径8毫米的标准球体按压表面,并应用上述FCNN和泊松重建方法进行三维重建。通过比较重建表面与理论球面沿中心线的深度剖面,计算出绝对平均误差约为0.0239毫米。此外,研究还对几种常见物体(如硬币、芯片、树叶脉络)进行了纹理重建,成功恢复了它们的表面几何细节,验证了方法的有效性。
第四部分:集成应用验证 1. 预规划抓取与细微识别:将V-T Palm传感器与四个气动软体手指集成,作为“视觉-触觉手掌”安装在六自由度机械臂末端。在接近模式下,机械臂以恒定速度接近静止目标物体。当传感器测得的距离达到预设阈值(10厘米)时,自动触发模态切换至触觉模式。确认接触后,启动抓取程序。实验对多种不同大小、形状和颜色的物体进行测试,实现了100%的抓取成功率和78.6%的测距准确率。此外,针对视觉高度相似但表面纹理不同的物体(如不同纹理的粉色瑜伽球、不同成熟度的橙子),通过分析触觉模式重建表面的小波能量和灰度共生矩阵特征,传感器能够有效区分它们,展示了其在高速分拣应用中的潜力。 2. 卡片插入实验:展示了传感器内置的传动机构所带来的额外自由度在手内精细操作(In-Hand Manipulation) 中的应用。任务是将一张卡片插入狭窄的缝隙。在初始抓取姿态带有随机倾斜的情况下,仅松开手指无法保证插入成功。研究引入了基于触觉反馈的自动感知-动作控制环:主机持续监测卡片与手掌接触区域的平均压痕深度。当执行“下压”命令时,若实时深度超过阈值(0.15毫米),则判断插入受阻,触发“下压-上抬-微调”循环(利用皮带的平移微调卡片姿态);否则,松开卡片完成投放。这一实验成功验证了该传感器能够支持软体手完成需要精细手内调整的灵巧操作任务。
主要研究成果 1. 模态切换:成功实现了通过机械传动机构在接近与触觉模式间的主动、快速切换,切换时间小于1秒。 2. 接近感知性能:在10-50厘米范围内,特别是在10-30厘米的机器人抓取常用距离内,开发的结合深度估计、分割和非线性校准的算法能够准确、稳健地跟踪不同速度下接近物体的距离,最佳速度下R² > 0.95。 3. 触觉感知性能:触觉模式具备超高分辨率。其表面粗糙度检测能力超越人类指尖,能清晰区分目数差异显著的砂纸。三维几何重建精度达到亚毫米级,对标准球体压痕的重建平均误差仅约24微米,并能成功重建硬币、芯片等物体的复杂表面纹理。 4. 集成应用成果:双模态协同工作显著提升了机器人系统的性能。在抓取任务中,实现了从远距离感知、自动切换模态到稳定抓取的闭环,成功率达100%。传感器还能区分视觉相似物体,拓展了感知维度。更重要的是,其内置传动机构赋予了软体手额外的操作自由度,通过“卡片插入”实验证明了其在手内精细操作方面的可行性与价值。
研究结论与价值 本研究成功提出并验证了一种创新的、具有滑动传感窗口的视觉-触觉双模态传感器。其核心贡献在于通过机械传动设计,将长距离接近感知与超高分辨率触觉感知无缝集成在一个紧凑模块中,并实现了主动模态切换。这解决了现有双模态传感器在主动感知、长距离测距和高分辨率触觉难以兼得方面的局限性。
该研究的科学价值在于为机器人多模态感知提供了一种新颖的硬件与算法融合的解决方案。它验证了将单目视觉深度估计与定制化校准模型结合,用于紧凑型传感器接近感知的可行性;同时也展示了基于光度立体视觉和神经网络的高精度触觉重建方法在嵌入式系统中的有效应用。
其应用价值尤为突出:首先,它极大简化了机器人感知系统,一个传感器即可覆盖从“看”到“触”的连续感知链,提升了系统在非结构化环境中的适应性和集成度。其次,它为软体机器人提供了前所未有的精细感知与操作能力,将高分辨率触觉反馈与简单的软体执行器结合,实现了如卡片插入这类需要精细手内调整的灵巧操作,推动了软体手向更灵巧、更智能的方向发展。
研究亮点 1. 创新的机械切换机制:采用部分透明滑动窗口(皮带传动)实现双模态的主动、物理切换,构思巧妙,是区别于现有光学或算法切换方案的核心硬件创新。 2. 高性能双模态感知:同时实现了稳健的长距离接近感知(基于先进的单目深度估计模型)和超高的触觉分辨率(纳米级粗糙度检测、亚毫米级三维重建),且两种性能均经过定量化实验严格表征。 3. 感知与操作的一体化设计:传感器不仅是一个感知单元,其传动机制本身还构成了一个额外的操作自由度,将感知与执行功能融合,直接赋能软体手完成更复杂的手内精细操作,这是功能设计上的一大亮点。 4. 完整的系统级验证:研究不仅进行了详细的单元性能测试,还完成了从抓取规划到灵巧操作的系统级集成应用实验,全面展示了传感器在实际机器人任务中的实用价值。
其他有价值内容 本研究得到了中国国家自然科学基金和上海市科学技术委员会项目的资助。论文还包含了对现有代表性接近-触觉双模态传感器工作的详细对比表格(Table I),清晰阐述了本工作与先前研究的区别与进步。作者在展望中提出了未来的工作方向,包括增强对透明物体的接近感知、进一步提高触觉感知分辨率的上限,以及通过纳入更多形状和尺寸物体的校准数据来提升测距鲁棒性,显示了该研究平台的持续发展潜力。