基于多尺度注意力与上下文信息增强的隧道衬砌缺陷自动分割方法

分享自：
基于多尺度注意力与上下文信息增强的隧道衬砌缺陷自动分割方法

工程学
建筑与土木工程
信息科学
人工智能
计算机科学
期刊:Construction and Building MaterialsDOI:10.1016/j.conbuildmat.2023.131621
【点击此处】阅读全文、收藏及针对性提问
基于多尺度注意力和上下文信息增强的隧道衬砌缺陷自动分割算法研究
本研究报告旨在详细阐述由Zhong Zhou, Longbin Yan, Junjie Zhang等人于2023年发表在期刊《Construction and Building Materials》（第387卷，文章ID 131621）上的一项原创性研究成果。该研究针对复杂隧道环境下基于深度学习的衬砌缺陷识别所面临的挑战，提出了一种名为MC-TLD（隧道衬砌缺陷分割与多尺度注意力和上下文信息增强）的新型语义分割算法。
一、 研究背景与目的
随着中国交通基础设施的快速发展，公路隧道里程已位居世界首位，隧道运营正从“重建设”向“建养并重”过渡。隧道衬砌在长期复杂运营环境中易产生裂缝、渗漏、防火涂层剥落等多种表观缺陷，这些缺陷若未及时处理，将严重影响隧道结构安全与运营稳定性。目前，人工检测是主要的缺陷检测方法，但其存在效率低、主观性强、影响交通连续性等问题。因此，实现隧道衬砌缺陷的智能化识别已成为行业迫切需求。
近年来，深度学习算法凭借其强大的自学习和数据挖掘能力，在结构缺陷智能检测领域得到应用。然而，直接将现有算法应用于隧道缺陷识别任务仍面临两大核心挑战：一是复杂的隧道环境干扰（如光照剧烈变化、管线、手写标记、接缝等背景干扰）；二是缺陷目标的多尺度性（缺陷面积占比从不足0.24%到超过57%，尺度差异巨大）。具体而言，现有基于卷积神经网络（CNN）的缺陷识别算法因固有的局部归纳偏置，难以充分捕捉图像中不同物体之间以及物体与场景之间的交互信息（即全局上下文信息），导致模型在应对复杂背景干扰时出现误检和漏检。同时，现有方法在同时有效检测尺度差异显著的缺陷方面仍存在困难。
为应对以上挑战，本研究旨在开发一种新颖的隧道衬砌缺陷分割算法。其主要目标包括：1) 设计模块以增强网络对全局上下文信息的提取能力，从而提高模型在复杂隧道环境下的鲁棒性；2) 提升网络对不同尺度缺陷的特征提取能力，实现多尺度缺陷的精准识别；3) 构建一个包含多种缺陷类型的公路隧道衬砌缺陷数据集，并提出适用于语义分割任务的隧道缺陷多尺度划分准则，为后续研究提供参考。
二、 研究方法与流程
本研究主要包括三个核心阶段：算法设计与开发、数据集构建、以及系统的实验验证与消融分析。其详细工作流程如下：
1. 数据集构建与准备 研究团队通过对中国30多条公路隧道进行缺陷普查，采集了684张高分辨率隧道衬砌图像，并通过人工裁剪获得了2296张416×416像素的方形图像。这些图像包括裂缝、渗漏、防火涂层剥落、混合缺陷（同时存在两种或以上缺陷）以及无缺陷背景图像。所有图像按6:2:2的比例划分为训练集、验证集和测试集。为增强数据多样性和类别平衡，研究采用了空间翻转、噪声干扰、光照变换等多种数据增强方法对训练集进行扩展，最终构建了一个包含3512张图像的隧道衬砌缺陷总数据集。
特别地，为深入评估模型性能，研究团队对测试集进行了针对性划分： - 按环境复杂度划分：根据图像背景是否单一、光照是否充足，将测试集划分为简单测试集（Test-simple）和复杂测试集（Test-complex）。 - 按缺陷尺度划分：针对语义分割任务的特点，本研究创新性地提出了基于缺陷区域面积占整图面积比例的隧道衬砌缺陷多尺度划分准则：小尺度（<1%）、中尺度（1%-9%）、大尺度（>9%）。基于此，将测试集进一步划分为小尺度测试集（Test-small）、中尺度测试集（Test-medium）、大尺度测试集（Test-large）和混合尺度测试集（Test-mix，同时包含多尺度缺陷）。所有缺陷图像均使用“Labelme”软件进行了像素级标注，生成了用于监督学习的标签图像。
2. 提出的MC-TLD算法设计 MC-TLD算法整体结构由三个核心模块构成：上下文增强特征编码器、带有多尺度注意力的空洞空间金字塔池化模块，以及基于可学习上采样的特征解码器。 - 上下文增强特征编码器（CEFE）：该模块旨在解决CNN难以充分提取全局上下文信息的问题。其主干网络采用了经过对比实验选定的ResNet-50。在ResNet-50的四个特征提取阶段输出的特征层上，本研究添加了基于循环交叉注意力（Recurrent Criss-Cross Attention， RCCA）的特征融合分支。RCCA模块通过两次交叉注意力（CCA）操作，使每个像素能够与图像中所有其他像素建立远程依赖关系，从而生成包含密集、丰富上下文信息的特征层。前三层的特征在经过RCCA提取上下文信息后，再通过卷积、批归一化、激活函数和上采样操作（CB-R-U模块）向下传递并进行融合，最终得到一个融合了局部细节与全局语义的深度特征层。 - 带有多尺度注意力的空洞空间金字塔池化模块（MA-ASPP）：该模块旨在提升网络对多尺度缺陷的适应能力。首先，输入特征通过空洞空间金字塔池化（ASPP）模块，利用不同膨胀率的空洞卷积和全局池化操作，提取具有不同感受野的多尺度特征层。然后，引入空间注意力模块（Spatial Attention， SPA）对每个尺度的特征层进行空间信息增强，放大缺陷有效空间特征的权重，抑制复杂背景干扰。最后，创新性地设计了一个多尺度注意力模块：将五个不同尺度的增强特征层拼接后，分别计算每个尺度特征层的通道注意力向量；接着，使用Softmax函数对这些多尺度通道注意力向量进行重新校准，建立跨尺度的通道注意力依赖关系；最后，将重新校准后的注意力向量与对应尺度的特征层进行元素级点乘，得到增强了多尺度特征信息的最终输出。 - 基于可学习上采样的特征解码器（DU-FD）：为了更精确地恢复像素级预测结果，本研究使用可学习的上采样方法（Dupsampling）取代了传统线性插值上采样（如双线性插值）。Dupsampling通过学习一个参数矩阵，将每个像素的特征向量转换为更高分辨率的特征块，从而实现分辨率的提升。解码器包含四次上采样操作，并与编码器中相同尺寸的特征层建立了跳跃连接，以减少信息损失。
3. 实验设计与流程 研究实验流程严谨，分为以下步骤： - 隧道衬砌缺陷分类实验：为了给MC-TLD选择性能最优的主干网络，研究首先构建了一个分类数据集（排除混合缺陷图像），并比较了VGG-19、MobileNet-V3、EfficientNet、ResNet-50、ResNet-101、ConvNeXt、Vision Transformer（ViT）和Swin Transformer等八种代表性分类网络的性能。评估指标包括分类精度和单图分类时间。实验结果表明，ResNet-50在分类精度（92%）、推理速度以及对复杂背景的抗干扰能力方面综合表现最佳，因此被选为MC-TLD的主干网络。 - 隧道衬砌缺陷分割实验：这是研究的核心验证环节。研究选择了FCN、SegNet、PSPNet、DeepLabV3+和U-Net五种性能良好的语义分割网络作为对比模型。所有模型均使用相同的Dice损失函数进行训练，并通过随机搜索方法优化了超参数。训练周期设为100，以确保模型充分收敛。 - 性能评估：训练完成后，使用构建的各类测试集对模型进行全面评估。主要评估指标为平均交并比（Mean Intersection over Union， mIoU）和平均像素精度（Mean Pixel Accuracy， mPA）。此外，还进行了可视化分析，直观对比各模型的分割效果。 - 消融实验：为验证所提各改进策略（RCCA、多尺度注意力和Dupsampling）的有效性，研究设计了系统的消融实验，通过控制变量法，分别测试移除或替换这些模块后模型的性能变化。 - 模型适用性与泛化能力测试：使用从实际在役隧道新采集的42张图像测试模型适用性，并通过假设检验（t检验和p值分析）验证MC-TLD性能提升的显著性。同时，使用开源渗漏数据集测试了模型的泛化能力。
三、 主要研究结果
实验结果表明，本研究提出的MC-TLD算法在隧道衬砌缺陷分割任务上取得了显著优于对比模型的性能。
1. 在复杂环境下的分割性能 在简单测试集（Test-simple）上，MC-TLD的mIoU和mPA分别达到83.17%和91.98%，相比FCN、SegNet、DeepLabV3+、PSPNet和U-Net均有显著提升（mIoU提升2.58%至5.92%）。在更具挑战的复杂测试集（Test-complex）上，MC-TLD展现了强大的抗环境干扰能力，其mIoU和mPA分别为76.42%和85.56%，仅比简单测试集下降了6.75%和6.42%。而其他对比模型在复杂环境下的性能则出现大幅下滑，例如FCN的mIoU下降了15.28%。可视化结果清晰显示，在光照昏暗、存在管线、接缝等干扰的复杂场景下，对比模型容易出现将背景误判为缺陷或缺陷分割不完整的问题，而MC-TLD仍能保持准确、连续的分割效果，对混合缺陷的重叠区域也能有效识别。
2. 在多尺度缺陷上的分割性能 针对多尺度缺陷，MC-TLD同样表现出色。在小尺度测试集（Test-small）上，其mIoU和mPA高达70.65%和79.86%，比第二名U-Net分别高出10.55%和9.70%。此外，MC-TLD在小尺度、中尺度、大尺度缺陷上的分割精度差异是六个模型中最小的，表明其对不同尺度缺陷具有均衡且强大的特征提取能力。在混合尺度测试集上，MC-TLD的精度也最高。可视化结果证实，对于细小的裂缝和面积很小的防火涂层剥落，对比模型存在严重的漏检和分割不连续问题，而MC-TLD能准确识别其形状和位置。
3. 适用性与泛化能力验证 在42张实际在役隧道新图像上的测试中，MC-TLD取得了80.19%的mIoU。p值分析结果表明，MC-TLD的mIoU显著高于其他五个对比模型（所有p值均小于0.05）。在开源渗漏数据集上的测试也取得了81.35%的mIoU，表明MC-TLD具有良好的泛化能力。
4. 消融实验结果 消融实验有力证明了各个改进模块的有效性： - RCCA的作用：在复杂测试集上，使用包含RCCA的ResNet-50作为主干，相比单独使用ResNet-50，mIoU和mPA分别提升了4.23%和3.52%，并能有效减少背景误检。 - 多尺度注意力的作用：在小尺度测试集上，采用多尺度注意力的模型比不采用的模型，mIoU和mPA分别提升了3.38%和3.57%，显著增强了对小尺度缺陷的检测能力。 - Dupsampling的作用：与双线性插值、最近邻插值、转置卷积和PixelShuffle等其他上采样方法相比，使用Dupsampling的模型在总测试集上取得了最高的分割精度。
四、 结论与意义
本研究成功提出并验证了MC-TLD这一新型隧道衬砌缺陷自动分割算法。主要结论如下： 1. 算法性能优越：MC-TLD在简单和复杂隧道环境下均取得了领先的分割精度，表现出卓越的抗环境干扰能力和多尺度缺陷识别能力。 2. 模块设计有效：上下文增强特征编码器（CEFE）通过RCCA有效补强了CNN的全局信息提取能力；带有多尺度注意力的MA-ASPP模块显著提升了网络对尺度差异的适应性；基于Dupsampling的解码器实现了更精确的像素级预测恢复。 3. 贡献全面：研究不仅提出了新算法，还构建了高质量的隧道缺陷数据集，并提出了适用于语义分割的缺陷多尺度划分准则，为领域内的后续研究提供了宝贵资源和技术参考。
本研究的科学价值在于，它针对隧道工程这一特定应用场景的独特挑战（环境复杂、目标多尺度），对深度学习分割网络进行了有针对性的、系统的改进，将上下文建模、注意力机制与多尺度特征融合有机结合，推动了计算机视觉技术在基础设施智能运维领域的深化应用。其应用价值显著，所提算法有望集成到隧道自动化检测设备或系统中，实现高效、准确、客观的隧道衬砌健康状况评估，助力交通基础设施的数字化转型和智能化管养，具有重要的工程实践意义和广阔的应用前景。
五、 研究亮点
本研究的亮点主要体现在以下几个方面： 1. 问题导向的创新：紧密围绕隧道缺陷检测的实际痛点（环境干扰、多尺度）进行算法设计，创新性地集成了上下文信息增强与多尺度注意力机制。 2. 系统性的改进：从特征编码、多尺度特征提取与增强到特征解码，对分割网络的各个环节进行了针对性优化，形成了完整的解决方案。 3. 严谨的验证体系：不仅构建了区分环境复杂度和缺陷尺度的精细化测试集，还通过消融实验、假设检验和开源数据测试，全方位、多角度地验证了算法性能和模块有效性。 4. 领域贡献：提出的隧道缺陷多尺度划分准则填补了语义分割任务在该领域标准定义的空白，构建的数据集也为同行研究提供了基准。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问