一、 研究团队与发表信息
本项研究由来自南京航空航天大学计算机科学与技术学院以及机电学院的Yingying Xu、Dawei Li、Qian Xie、Qiaoyun Wu和Jun Wang*(通讯作者)共同完成。研究成果以题为《Automatic defect detection and segmentation of tunnel surface using modified Mask R-CNN》的学术论文形式,发表于《Measurement》期刊的第178卷(2021年),文章具体标识为109316,于2021年3月27日在线发布。
二、 学术背景与研究目的
本研究的核心科学领域属于计算机视觉与深度学习在土木工程结构健康监测(Structural Health Monitoring, SHM)中的应用,具体聚焦于地铁隧道表面缺陷的自动化视觉检测。
三、 详细工作流程
本研究的工作流程系统且完整,主要包含四个关键环节:数据库构建、网络模型改进(缺陷检测与分割核心)、训练与验证、以及后处理(缺陷区域合并)。
1. 隧道表面图像数据库构建 由于公开的隧道缺陷数据集稀缺,研究团队首先自主研发了一套隧道图像采集设备。该系统由行进车辆、多个CCD相机、照明设备、图像采集卡、距离传感器和计算机构成,用于在真实地铁隧道环境中采集原始图像。采集后,将原始图像裁剪为1500×1500像素的固定分辨率,并手动筛选出包含渗漏或剥落的图像,初始获得968张有效缺陷图像。 为解决深度学习模型训练所需数据量问题,研究采用了数据增强技术,包括随机旋转、水平/垂直翻转和模糊处理,以模拟相机不同角度、方向采集以及抖动失焦的情况。增强后,最终用于实验的数据集包含9680张图像,涵盖四种类型:正常、仅渗漏、仅剥落、渗漏与剥落共存。所有缺陷图像均使用LabelMe工具进行像素级手动标注,构建真实标签(Ground Truth)。数据集按80%(训练)、10%(验证)、10%(测试)的比例划分。
2. 缺陷检测与分割模型的设计与改进 本研究的核心创新在于对经典的实例分割(Instance Segmentation)模型Mask R-CNN进行了两处关键改进。
3. 模型训练与实验设计 * 训练细节:研究采用迁移学习策略,首先在大型通用数据集COCO上对网络进行预训练,然后使用自建的隧道缺陷数据集进行微调(Fine-tuning)。训练总迭代次数约为50,000次,使用动量为0.9、权重衰减为0.0001的优化器,学习率初始为0.001,30,000次迭代后降至0.0001。实验环境基于TensorFlow 2.0框架。 * 评估指标:采用平均精度均值(mean Average Precision, mAP) 评估缺陷检测性能,同时使用错误率(Error Rate),即误标记像素数与总像素数之比,来评估分割精度。
4. 缺陷区域合并算法 由于在数据库构建阶段,一个完整的缺陷可能被裁剪到不同的相邻图像中,为了后续工程评估(如计算缺陷总面积以评估风险等级),需要将属于同一物理缺陷的检测区域进行合并。 研究提出了一种基于图像位置信息和几何距离的合并算法。首先,利用采集时存储的位置信息,将检测到缺陷的相邻图像进行拼接。然后,对于每对相邻图像中的候选缺陷区域,计算它们轮廓点集之间的最小距离。如果该距离小于设定的阈值(经实验确定为25像素),且缺陷类别相同,则将这两个区域合并为一个连通区域。该算法通过遍历所有相邻区域,最终输出合并后的完整缺陷区域。
四、 主要研究结果
1. 消融实验(Ablation Study)结果 为验证PAFPN和边缘检测分支的有效性,研究设置了对比实验:原始Mask R-CNN、仅加入PAFPN的方法A、仅加入边缘检测分支的方法B、以及同时加入两者的完整方法(本方法)。 * 定量结果:在渗漏、剥落、渗漏剥落共存三类图像的测试中,完整方法均取得了最高的mAP(分别为85.35%, 93.68%, 90.57%)和最低的错误率(分别为0.61%, 0.42%, 0.57%)。方法A(仅PAFPN)对mAP提升贡献显著(渗漏图像提升8.95%),表明PAFPN有效增强了特征提取能力,尤其是对低层定位信息的利用。方法B(仅边缘分支)对渗漏检测的改进(mAP提升4.44%)明显大于对剥落的改进(1.67%),说明边缘信息对于形状复杂的渗漏缺陷更为重要。 * 定性结果(可视化):从分割结果图可以看出,原始Mask R-CNN存在边缘信息丢失、将背景误检为缺陷、相邻缺陷边界模糊等问题。方法A生成的候选框更准确,方法B的分割边界更清晰。而完整方法综合了两者优势,在检测召回率、分割轮廓精度和抗干扰能力上表现最佳。
2. 与现有方法的对比实验 * 与传统图像处理方法的对比:研究将本方法与Otsu阈值法(OA)、分水岭算法(WA)和区域生长算法(RGA)进行了对比。在包含修补痕迹、管线、螺栓孔、凹坑等多种干扰的隧道图像上,传统方法普遍受干扰严重,误将管线、修补处等识别为缺陷,导致错误率极高(OA平均36.59%,WA平均39.68%,RGA平均23.97%)。而本方法得益于深度学习提取的高层语义特征,能有效区分真实缺陷与背景干扰,平均错误率仅为0.64%,显著优于传统方法。 * 与前沿实例分割方法的对比:与MS R-CNN、SpineNet、ResNeSt、CenterMask等先进模型相比,在相似的基线骨干网络(如ResNet101)下,本方法在边界框mAP和掩码错误率指标上均取得了最优或极具竞争力的结果。例如,在ResNet101骨干网络上,本方法比CenterMask的mAP高出9.18%,错误率更低。这证明了所提改进在隧道缺陷特定任务上的有效性。
3. 缺陷合并算法验证 通过设定不同距离阈值(5至50像素)进行测试,以正确合并数(TP)和错误合并数(FN)为指标,发现当阈值设为25像素时,合并算法性能最优,能够准确地将被图像裁剪割裂的同一缺陷区域重新合并。
五、 研究结论与价值
本研究成功提出并验证了一种基于改进Mask R-CNN的隧道表面缺陷自动检测与分割框架。主要结论如下: 1. 方法有效性:通过引入PAFPN模块和边缘检测分支,显著提升了Mask R-CNN模型在复杂隧道环境下的缺陷检测精度与分割边缘质量。该方法能够同时、准确地检测和分割渗漏与剥落缺陷。 2. 性能优越性:综合实验表明,本方法在检测精度(mAP)和分割准确度(错误率)上均大幅优于传统图像处理方法和多种前沿的深度学习实例分割模型,展现出强大的鲁棒性和适应性。 3. 工程应用闭环:提出的缺陷区域合并算法,弥补了从“图像分析”到“工程评估”的最后一环,能为隧道质量评估、风险分级、维保决策提供包含完整几何信息的缺陷数据,具有直接的应用价值。
科学价值:本研究为深度学习在复杂工业场景下的应用提供了一个范例,展示了如何针对特定任务(隧道缺陷检测)和数据特点(复杂背景、目标形态特殊)对通用模型(Mask R-CNN)进行有效改进(PAFPN和边缘损失),这对相关领域的研究具有方法论上的借鉴意义。
应用价值:该研究为实现地铁隧道巡检的自动化、智能化提供了可行的技术方案,有望替代低效、主观的人工巡检,提升巡检效率与准确性,保障隧道运营安全,降低维护成本。
六、 研究亮点
七、 其他有价值内容
研究中提到,所使用的隧道图像采集设备是自主研发的,这保证了数据来源的可靠性和针对性。同时,研究采用了迁移学习策略,利用大型公开数据集COCO进行预训练,有效缓解了特定领域标注数据量相对不足的问题,这是在实际工程中应用深度学习的一个常用且有效的技巧。论文最后也展望了将该方法扩展到其他表面检测应用的可能性,显示了其潜在的通用性。