基于改进掩码区域卷积神经网络的隧道表面缺陷自动检测与分割

分享自：
基于改进掩码区域卷积神经网络的隧道表面缺陷自动检测与分割

生物医学工程
医学
信息科学
人工智能
计算机科学
期刊:measurementDOI:10.1016/j.measurement.2021.109316
【点击此处】阅读全文、收藏及针对性提问
基于改进Mask R-CNN的地铁隧道表面缺陷自动检测与分割方法研究报告一、 研究团队与发表信息
本项研究由来自南京航空航天大学计算机科学与技术学院以及机电学院的Yingying Xu、Dawei Li、Qian Xie、Qiaoyun Wu和Jun Wang*（通讯作者）共同完成。研究成果以题为《Automatic defect detection and segmentation of tunnel surface using modified Mask R-CNN》的学术论文形式，发表于《Measurement》期刊的第178卷（2021年），文章具体标识为109316，于2021年3月27日在线发布。
二、 学术背景与研究目的
本研究的核心科学领域属于计算机视觉与深度学习在土木工程结构健康监测（Structural Health Monitoring, SHM）中的应用，具体聚焦于地铁隧道表面缺陷的自动化视觉检测。
研究背景与动机：随着中国城市轨道交通系统的快速发展，隧道结构的安全运维至关重要。隧道在长期运营中受列车振动、施工等因素影响，表面会产生多种病害，其中渗漏（Leakage） 和剥落（Spalling） 是最常见且对结构稳定性和耐久性威胁最大的缺陷。传统的隧道检测主要依赖技术人员目视巡检，这种方法效率低下、成本高昂、主观性强且易出错。尽管已有基于计算机视觉的传统图像处理方法被引入，但这些方法通常依赖于手动设计的特征（如边缘、阈值、形态学操作），在隧道表面复杂背景（光照不足、管线干扰、修补痕迹、螺栓孔等）下，其泛化能力和适应性较差，检测效果不佳。
研究目标：为解决上述问题，本研究旨在开发一种鲁棒、准确的隧道表面缺陷自动检测与分割方法。具体目标包括：1) 实现渗漏和剥落两类缺陷的同时检测与精确像素级分割；2) 克服隧道表面复杂环境干扰，提升算法的稳健性；3) 为隧道质量评估（如缺陷风险等级判定）提供全面的缺陷信息（类别、数量、位置、几何形状）。
三、 详细工作流程
本研究的工作流程系统且完整，主要包含四个关键环节：数据库构建、网络模型改进（缺陷检测与分割核心）、训练与验证、以及后处理（缺陷区域合并）。
1. 隧道表面图像数据库构建 由于公开的隧道缺陷数据集稀缺，研究团队首先自主研发了一套隧道图像采集设备。该系统由行进车辆、多个CCD相机、照明设备、图像采集卡、距离传感器和计算机构成，用于在真实地铁隧道环境中采集原始图像。采集后，将原始图像裁剪为1500×1500像素的固定分辨率，并手动筛选出包含渗漏或剥落的图像，初始获得968张有效缺陷图像。 为解决深度学习模型训练所需数据量问题，研究采用了数据增强技术，包括随机旋转、水平/垂直翻转和模糊处理，以模拟相机不同角度、方向采集以及抖动失焦的情况。增强后，最终用于实验的数据集包含9680张图像，涵盖四种类型：正常、仅渗漏、仅剥落、渗漏与剥落共存。所有缺陷图像均使用LabelMe工具进行像素级手动标注，构建真实标签（Ground Truth）。数据集按80%（训练）、10%（验证）、10%（测试）的比例划分。
2. 缺陷检测与分割模型的设计与改进 本研究的核心创新在于对经典的实例分割（Instance Segmentation）模型Mask R-CNN进行了两处关键改进。
基础框架选择：研究选择Mask R-CNN作为基线模型，因为它能同时完成目标检测（输出边界框和类别）和语义分割（输出每个实例的像素级掩码），符合获取全面缺陷信息的需求。
改进一：路径增强特征金字塔网络（Path Augmentation Feature Pyramid Network, PAFPN） 问题：原始Mask R-CNN使用的特征金字塔网络（FPN）主要通过自上而下的路径融合高层语义特征，但低层特征（富含定位信息）需要经过长达100多层的路径才能到达顶层，在此过程中由于池化和反卷积操作，定位信息大量丢失，不利于后续精确的检测与分割。
解决方案：研究提出PAFPN模块。它在FPN的基础上，增加了一个自下而上的路径增强（Bottom-up Path Augmentation） 模块。该模块将低层特征图通过步长为2的卷积层下采样后，与相邻高层特征图进行融合，形成新的特征图（N2至N6）。这相当于在低层与顶层之间建立了一条少于10层的“短路径”，极大地促进了低层定位信息向顶层的传播。
进一步融合：在得到自下而上增强的特征后，再进行一次特征融合（Feature Fusion） 操作，将更高层的特征上采样后与相邻低层特征融合，形成最终用于预测的多尺度特征图（M2至M6）。这使得网络提取的特征同时富含高层的语义信息和低层的精确定位信息。
改进二：边缘检测分支（Edge Detection Branch） 问题：使用原始Mask R-CNN进行隧道缺陷分割时，缺陷的边缘信息丢失严重，导致分割轮廓粗糙。
解决方案：在Mask R-CNN的掩码预测分支末端，并行添加一个边缘检测分支。该分支的输入是模型预测的掩码和对应的真实掩码。采用Sobel边缘检测滤波器分别对两者进行卷积操作，计算得到的边缘图之间的均方根误差（Root Mean Squared Error, RMSE）作为边缘损失（L_edge）。将此损失加入到模型的总损失函数中，迫使网络在训练过程中关注并学习缺陷的边缘特征，从而提升分割边界的准确性。
其他调整：针对隧道渗漏和剥落缺陷通常呈细长矩形的特点，修改了区域提议网络（Region Proposal Network, RPN）中锚框（Anchor Box）的长宽比，设置为1:1, 1:2, 2:1, 1:4, 4:1，以更好地匹配目标形状。
3. 模型训练与实验设计 * 训练细节：研究采用迁移学习策略，首先在大型通用数据集COCO上对网络进行预训练，然后使用自建的隧道缺陷数据集进行微调（Fine-tuning）。训练总迭代次数约为50,000次，使用动量为0.9、权重衰减为0.0001的优化器，学习率初始为0.001，30,000次迭代后降至0.0001。实验环境基于TensorFlow 2.0框架。 * 评估指标：采用平均精度均值（mean Average Precision, mAP） 评估缺陷检测性能，同时使用错误率（Error Rate），即误标记像素数与总像素数之比，来评估分割精度。
4. 缺陷区域合并算法 由于在数据库构建阶段，一个完整的缺陷可能被裁剪到不同的相邻图像中，为了后续工程评估（如计算缺陷总面积以评估风险等级），需要将属于同一物理缺陷的检测区域进行合并。 研究提出了一种基于图像位置信息和几何距离的合并算法。首先，利用采集时存储的位置信息，将检测到缺陷的相邻图像进行拼接。然后，对于每对相邻图像中的候选缺陷区域，计算它们轮廓点集之间的最小距离。如果该距离小于设定的阈值（经实验确定为25像素），且缺陷类别相同，则将这两个区域合并为一个连通区域。该算法通过遍历所有相邻区域，最终输出合并后的完整缺陷区域。
四、 主要研究结果
1. 消融实验（Ablation Study）结果 为验证PAFPN和边缘检测分支的有效性，研究设置了对比实验：原始Mask R-CNN、仅加入PAFPN的方法A、仅加入边缘检测分支的方法B、以及同时加入两者的完整方法（本方法）。 * 定量结果：在渗漏、剥落、渗漏剥落共存三类图像的测试中，完整方法均取得了最高的mAP（分别为85.35%, 93.68%, 90.57%）和最低的错误率（分别为0.61%, 0.42%, 0.57%）。方法A（仅PAFPN）对mAP提升贡献显著（渗漏图像提升8.95%），表明PAFPN有效增强了特征提取能力，尤其是对低层定位信息的利用。方法B（仅边缘分支）对渗漏检测的改进（mAP提升4.44%）明显大于对剥落的改进（1.67%），说明边缘信息对于形状复杂的渗漏缺陷更为重要。 * 定性结果（可视化）：从分割结果图可以看出，原始Mask R-CNN存在边缘信息丢失、将背景误检为缺陷、相邻缺陷边界模糊等问题。方法A生成的候选框更准确，方法B的分割边界更清晰。而完整方法综合了两者优势，在检测召回率、分割轮廓精度和抗干扰能力上表现最佳。
2. 与现有方法的对比实验 * 与传统图像处理方法的对比：研究将本方法与Otsu阈值法（OA）、分水岭算法（WA）和区域生长算法（RGA）进行了对比。在包含修补痕迹、管线、螺栓孔、凹坑等多种干扰的隧道图像上，传统方法普遍受干扰严重，误将管线、修补处等识别为缺陷，导致错误率极高（OA平均36.59%，WA平均39.68%，RGA平均23.97%）。而本方法得益于深度学习提取的高层语义特征，能有效区分真实缺陷与背景干扰，平均错误率仅为0.64%，显著优于传统方法。 * 与前沿实例分割方法的对比：与MS R-CNN、SpineNet、ResNeSt、CenterMask等先进模型相比，在相似的基线骨干网络（如ResNet101）下，本方法在边界框mAP和掩码错误率指标上均取得了最优或极具竞争力的结果。例如，在ResNet101骨干网络上，本方法比CenterMask的mAP高出9.18%，错误率更低。这证明了所提改进在隧道缺陷特定任务上的有效性。
3. 缺陷合并算法验证 通过设定不同距离阈值（5至50像素）进行测试，以正确合并数（TP）和错误合并数（FN）为指标，发现当阈值设为25像素时，合并算法性能最优，能够准确地将被图像裁剪割裂的同一缺陷区域重新合并。
五、 研究结论与价值
本研究成功提出并验证了一种基于改进Mask R-CNN的隧道表面缺陷自动检测与分割框架。主要结论如下： 1. 方法有效性：通过引入PAFPN模块和边缘检测分支，显著提升了Mask R-CNN模型在复杂隧道环境下的缺陷检测精度与分割边缘质量。该方法能够同时、准确地检测和分割渗漏与剥落缺陷。 2. 性能优越性：综合实验表明，本方法在检测精度（mAP）和分割准确度（错误率）上均大幅优于传统图像处理方法和多种前沿的深度学习实例分割模型，展现出强大的鲁棒性和适应性。 3. 工程应用闭环：提出的缺陷区域合并算法，弥补了从“图像分析”到“工程评估”的最后一环，能为隧道质量评估、风险分级、维保决策提供包含完整几何信息的缺陷数据，具有直接的应用价值。
科学价值：本研究为深度学习在复杂工业场景下的应用提供了一个范例，展示了如何针对特定任务（隧道缺陷检测）和数据特点（复杂背景、目标形态特殊）对通用模型（Mask R-CNN）进行有效改进（PAFPN和边缘损失），这对相关领域的研究具有方法论上的借鉴意义。
应用价值：该研究为实现地铁隧道巡检的自动化、智能化提供了可行的技术方案，有望替代低效、主观的人工巡检，提升巡检效率与准确性，保障隧道运营安全，降低维护成本。
六、 研究亮点
针对性的模型创新：不是简单套用现有模型，而是深刻分析了隧道缺陷检测任务中“低层定位信息丢失”和“分割边缘粗糙”两个核心问题，并据此设计了PAFPN和边缘检测分支两个具有明确物理意义的改进模块。
系统性的解决方案：工作流程完整，涵盖了从数据采集、标注、增强，到模型设计、训练、验证，再到后处理（缺陷合并）的全链条，形成了可落地的技术体系。
扎实的实验验证：通过详尽的消融实验、与多种传统及前沿方法的对比实验，多角度、多层次地证明了所提方法的优越性。数据集中包含的真实复杂干扰场景使得验证结论非常可靠。
关注工程实际需求：提出的缺陷合并算法直击工程评估中对缺陷整体信息的需求，体现了从学术研究到工程应用的良好衔接。
七、 其他有价值内容
研究中提到，所使用的隧道图像采集设备是自主研发的，这保证了数据来源的可靠性和针对性。同时，研究采用了迁移学习策略，利用大型公开数据集COCO进行预训练，有效缓解了特定领域标注数据量相对不足的问题，这是在实际工程中应用深度学习的一个常用且有效的技巧。论文最后也展望了将该方法扩展到其他表面检测应用的可能性，显示了其潜在的通用性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问