基于空间注意力机制的地铁隧道图像多尺度缺陷检测

分享自：
基于空间注意力机制的地铁隧道图像多尺度缺陷检测

期刊:2022 IEEE International Conference on Consumer Electronics - Taiwan
基于空间注意力机制的地铁隧道图像多尺度缺陷检测研究
一、 研究作者、机构与发表信息
本研究的核心作者为 An Wang（安王），其所属机构为日本北海道大学信息科学与技术研究生院（Graduate School of Information Science and Technology, Hokkaido University, Japan）。合作作者包括 Ren Togo（戸郷蓮）、Takahiro Ogawa（小川貴弘）以及 Miki Haseyama（長谷山美樹），他们均来自北海道大学信息科学与技术学院（Faculty of Information Science and Technology, Hokkaido University, Japan）。本研究以会议论文形式发表于2022年的IEEE International Conference on Consumer Electronics - Taiwan，论文标题为“Multi-Scale Defect Detection from Subway Tunnel Images with Spatial Attention Mechanism”。
二、 研究背景与目标
本研究属于计算机视觉与人工智能在基础设施智能运维领域的应用范畴，具体方向是深度学习驱动的图像语义分割（Semantic Segmentation）技术，用于自动识别和定位地铁隧道表面的缺陷。
随着全球现代化交通系统的发展，地铁隧道建设规模日益扩大。隧道建成后，维护工作成为关键议题。然而，由于日常检查时间窗口有限且隧道内部环境复杂（光线不均、背景纹理多变、缺陷尺度差异大），传统的人工或基于简单图像处理的方法难以满足高效、精准检测的需求。因此，开发自动化的缺陷检测系统具有重要的现实意义。
地铁隧道内主要的缺陷类型包括裂缝（通常尺寸较小、形态细长）和漏水（通常面积较大、形状不规则）。这两类缺陷在尺寸、形态和纹理特征上存在显著差异，构成了一个典型的多尺度（Multi-Scale）检测难题。即，一个优秀的检测模型需要同时具备捕捉细微裂缝细节的能力，以及识别大面积漏水区域的能力。此外，在实际采集的数据集中，缺陷像素（前景）与正常背景像素的数量通常极不平衡，背景占据了图像的绝大部分，这给模型训练带来了挑战，容易导致模型偏向于预测背景而忽略缺陷。
在先前的相关研究中，作者团队曾提出基于全卷积网络（Fully Convolutional Network, FCN）的缺陷检测方法，虽取得了一定效果，但在处理多尺度缺陷和应对数据不平衡问题时仍显不足，模型的泛化能力受到限制。
因此，本研究的主要目标是：针对地铁隧道图像中裂缝（小缺陷）和漏水（大缺陷）并存的多尺度检测挑战，以及训练数据中前景与背景像素数量不平衡的问题，提出一种新的、性能更优越的深度神经网络模型。该模型旨在实现对小目标裂缝和大面积漏水区域均能进行高精度检测，提升自动化检测的准确性和鲁棒性。
三、 研究详细流程与方法
本研究的工作流程主要包含四个核心环节：数据准备、模型架构设计、模型训练与优化、实验评估与对比分析。
1. 数据准备与处理 研究使用的数据由东京地铁有限公司（Tokyo Metro Co., Ltd.）提供，共计48张高分辨率的地铁隧道内壁原始图像。为了便于深度学习模型的训练与测试，研究团队将这48张图像划分为训练集和测试集，其中35张用于训练，13张用于测试。 由于原始图像分辨率极高，直接输入网络会带来巨大的计算负担，并且不利于进行数据增强和批处理。因此，研究采用了一种常见的处理方式：将每张高分辨率图像裁剪成多个尺寸为512×512像素的图像块（patches）。经过裁剪后，最终得到的数据集包含33,152个训练块和12,684个测试块。这种处理方式在保持局部细节的同时，极大地扩充了可用于训练和测试的样本数量。
数据标注（Ground Truth）方面，原始数据包含了18类不同的缺陷。为了简化任务并聚焦于核心的多尺度问题，本研究对这18类缺陷进行了重新归类，合并为两个前景类别和一个背景类别： * 类别1（Class1）： “裂缝”，代表所有小尺度的裂纹缺陷。 * 类别2（Class2）： “大尺度缺陷”，主要指漏水等面积较大的缺陷。 * 类别3： “背景”，即无缺陷的隧道壁区域。 统计数据显示，这三个类别在总像素中的占比分别为10%（裂缝）、16%（大尺度缺陷）和74%（背景），这清晰地表明了数据存在严重的类别不平衡问题。
2. 模型架构设计 本研究提出了一种新的网络架构，其核心是以HRNet（High-Resolution Net）作为特征提取的主干网络（Backbone），并集成了两个关键模块：空洞空间金字塔池化（Atrous Spatial Pyramid Pooling, ASPP）模块和空间注意力（Spatial Attention, SA）模块。
主干网络：HRNet-w32。 研究选用HRNet-w32版本，并采用在ImageNet大型数据集上预训练的权重进行初始化。HRNet的核心创新在于其并行多分辨率子网络的结构。与传统的卷积神经网络（CNN）通常以串行方式逐步下采样、降低分辨率不同，HRNet在整个前向传播过程中始终保持一个高分辨率表示，并通过重复融合不同分辨率的特征来交换信息。这种架构使得网络能够同时学习到丰富的高分辨率细节特征和低分辨率语义特征，从而为检测不同尺度的目标（如精细的裂缝和宏观的漏水）提供了强有力的基础。
空洞空间金字塔池化（ASPP）模块。 该模块被应用于HRNet输出的多尺度特征图上。ASPP模块通过使用不同采样率（空洞率）的空洞卷积（Atrous Convolution）并行地对特征图进行卷积，从而在不降低特征图空间分辨率的前提下，有效扩大卷积核的感受野（Receptive Field）。这使得网络能够在一个卷积层内捕获多尺度的上下文信息。对于隧道缺陷检测任务而言，ASPP模块增强了模型对大小不一缺陷的感知能力，特别是对于需要更大上下文信息来确认的大面积漏水区域。
空间注意力（SA）模块。 该模块源自DANet（Dual Attention Network）。在通过ASPP模块优化后，所有尺度的特征图被送入SA模块进行整合。SA模块的核心思想是建模特征图中任意两个空间位置之间的相互依赖关系。它通过计算所有位置对之间的特征相似度作为权重，对每个位置的特征进行加权更新。这意味着，一个位置的最终特征表示是由图像中所有位置的特征共同决定的，相似性高的位置贡献更大。这种机制能够将全局的上下文信息编码到局部特征中，极大地增强了特征的表示能力。在本任务中，SA模块特别有助于提升对小目标（如裂缝）的检测能力，因为它可以使网络关注到与当前裂缝像素具有相似特征的、可能不连续的其它裂缝像素，从而增强对细长、断续裂缝的完整识别。
整体工作流程： 输入图像首先经过HRNet-w32主干网络，提取出多分辨率（多尺度）的特征图。这些特征图随后分别送入并行的ASPP模块进行多尺度上下文信息增强。接着，所有经过ASPP处理的特征图被拼接（Concatenate）起来，输入到SA模块。SA模块通过计算全局空间依赖关系，对拼接后的特征进行重新校准和增强。最后，通过一个卷积层将增强后的特征映射到最终的预测图，完成每个像素点的类别（裂缝、大尺度缺陷、背景）预测。
3. 模型训练与实验设置 研究使用准备好的数据集对提出的模型进行训练。由于数据存在不平衡问题，训练过程中可能采用了加权交叉熵损失函数等策略来缓解类别不平衡的影响，尽管文中未明确说明具体损失函数细节。模型优化采用标准的反向传播和梯度下降算法。 为了验证所提出模型（Proposed Method, PM）中各个组件的有效性，研究设置了三个对比方法（Comparative Methods, CM）： * CM1： 仅使用HRNet-w32主干网络并集成ASPP模块，不使用SA模块。 * CM2： 仅使用HRNet-w32主干网络并集成SA模块，不使用ASPP模块。 * CM3： 基线方法，仅使用HRNet-w32主干网络，并在本研究数据集上进行微调（Fine-tune），不添加任何ASPP或SA模块。 通过这样的对比，可以分别评估ASPP模块和SA模块对最终性能的贡献。
4. 评估指标 研究采用两个在语义分割领域广泛使用的指标来定量评估模型性能： * 准确率（Accuracy, Acc）： 预测正确的像素占总像素的比例。这是一个整体指标，但在类别不平衡的数据中，高准确率可能主要由占多数的背景类贡献，因此需要结合其他指标。 * 交并比（Intersection over Union, IoU）： 对于每个类别，计算预测区域与真实标注区域的重叠部分（交集）与它们的合并部分（并集）的比值。该指标更能反映模型对目标区域的定位精度。研究中报告了各类别的IoU以及平均交并比（mean IoU, mIoU）。
四、 主要研究结果与分析
实验结果通过定量指标（表格）和定性可视化（图像对比）两种形式呈现，清晰地展示了所提出方法的性能及其优缺点。
1. 定量结果分析 根据论文中的表I（Table I）所示，在总体准确率（Acc）和平均交并比（mIoU）上，所提出的方法（PM）均优于或与三个对比方法（CM1, CM2, CM3）相当。具体来看： * 对于类别1（裂缝），所提出的方法（PM）取得了最高的IoU（0.448）和最高的类别准确率（0.590）。这表明，集成了ASPP和SA模块的完整架构对于检测小尺度、细长的裂缝最为有效。SA模块通过建立全局空间依赖，显著增强了网络对裂缝这种长距离、局部连续特征的捕捉能力。 * 对于类别2（大尺度缺陷），所提出的方法（PM）的IoU（0.325）虽然优于CM2和CM3，但略低于CM1（0.328）。这表明，在针对大尺度缺陷的检测上，ASPP模块（CM1的核心）起到了关键作用，它通过扩大感受野帮助模型理解大区域的上下文。而SA模块的引入，可能在一定程度上因其复杂的注意力机制而引入了某些噪声，或者注意力更多地被裂缝特征所吸引，导致对大尺度缺陷边界或内部均匀区域的关注略有下降，从而出现了轻微的漏检或过检现象。
2. 定性结果分析 论文中的图1、图2、图3提供了检测结果的可视化对比，直观地展示了各方法的性能。 * 图1（裂缝检测示例）： 可以观察到，所提出的方法（PM）对于裂缝的检测最为完整和连贯，断裂的裂缝片段也能被较好地连接起来，而对比方法（尤其是CM2和CM3）则存在更多的断裂或漏检。这直接印证了SA模块在增强小目标检测连续性方面的优势。 * 图2（漏水检测示例）： 显示所提出的方法（PM）和CM1对于大面积漏水区域的整体轮廓检测都较好，但PM在某些漏水区域的内部可能出现了一些空洞（漏检），或者边缘略有扩张（过检）。这与定量分析中PM在类别2上IoU略低于CM1的结果相一致。 * 图3（误检示例）： 展示了所有方法都可能出现误检的情况。误检通常发生在背景区域的纹理或特征与真实缺陷（如污渍、阴影、反光）相似的部位。这说明了隧道环境本身的复杂性，即使是先进的深度学习方法，在面对高度相似的非缺陷特征时，仍然可能产生混淆。这也指明了未来研究的一个方向：如何更好地建模和区分缺陷特征与易混淆的背景噪声。
3. 结果间的逻辑关系 实验结果的逻辑链条非常清晰：基线模型HRNet（CM3）提供了良好的多尺度特征基础。单独加入ASPP模块（CM1）提升了对大尺度目标的检测能力（类别2 IoU提升），验证了扩大感受野对理解大区域上下文的重要性。单独加入SA模块（CM2）提升了对小尺度目标的检测能力（类别1 准确率提升），验证了全局空间注意力机制对增强局部特征表示的有效性。而将两者结合（PM）后，模型综合了两者的优势，在裂缝检测上达到了最佳性能，同时在大尺度缺陷检测上保持了竞争力，最终在整体指标（Acc和mIoU）上取得了最优或接近最优的结果。裂缝检测性能的显著提升是本研究最重要的成果。
五、 研究结论与价值
本研究成功提出并验证了一种基于HRNet、结合ASPP模块和空间注意力（SA）模块的深度学习模型，用于解决地铁隧道图像中多尺度缺陷（特别是裂缝与漏水）的自动检测难题。
结论： 该模型能够有效应对缺陷尺度差异大和数据不平衡的挑战。空间注意力机制显著提升了模型对细小裂缝的检测精度和完整性，而空洞空间金字塔池化模块增强了对大面积漏水区域的上下文理解能力。尽管在大尺度缺陷的检测精度上略有折衷，但模型在整体性能和裂缝这一关键缺陷的检测上表现出了优越性。
价值： * 科学价值： 本研究为计算机视觉中的多尺度目标分割问题提供了一个有效的解决方案范例。它展示了如何通过集成并行多分辨率网络（HRNet）、多尺度上下文模块（ASPP）和全局关系建模模块（SA）来协同提升模型性能，特别是在增强小目标检测能力方面，SA模块的作用得到了实证。这对处理类似“大小目标共存”的视觉任务（如遥感图像分析、医学影像诊断等）具有借鉴意义。 * 应用价值： 研究直接面向城市轨道交通基础设施智能运维的重大需求。所开发的算法为实现地铁隧道巡检的自动化、智能化提供了关键技术支撑。与人工巡检相比，该方法能大幅提高检测效率，降低人力成本，并可能通过更频繁、更全面的自动分析，实现缺陷的早期发现与预警，有助于预防安全事故，保障运营安全。
六、 研究亮点
针对性地解决核心难题： 研究明确聚焦于地铁隧道缺陷检测中最为棘手的“多尺度”和“数据不平衡”两个核心问题，并为此设计了专门的网络架构。
创新的模型集成策略： 创造性地将HRNet、ASPP和SA三个各具优势的模块有机结合。HRNet提供丰富的多尺度特征表示，ASPP强化多尺度上下文感知，SA则通过全局注意力机制精细化特征，尤其是提升小目标（裂缝）的检测能力。这种集成并非简单堆叠，而是针对问题特性的有效组合。
显著的性能提升： 通过详尽的消融实验（对比CM1, CM2, CM3）证明，所提出的完整模型在关键指标上，特别是对于裂缝的检测精度（IoU）有显著提升，验证了方案的有效性。
真实的工业数据验证： 研究使用的是由地铁运营公司提供的真实隧道图像数据，而非仿真或实验室数据，这使得研究成果具有更高的实际应用可信度和转化潜力。
七、 其他有价值的内容
公开致谢与数据来源： 论文明确致谢了东京地铁有限公司提供研究数据，并声明获得了日本学术振兴会（JSPS）科研基金的支持（项目编号JP21H03456和JP20k19857）。这体现了研究的合规性、合作性以及可能的后续研究基础。
指出当前局限与未来方向： 研究并未回避其模型的不足之处，如对大尺度缺陷检测的轻微性能下降以及在某些复杂背景下的误检问题。这为后续研究指出了明确的改进方向，例如：进一步优化注意力机制以平衡对不同尺度目标的关注；引入更强大的数据增强或生成对抗网络（GAN）技术来模拟更多样的缺陷和背景；探索结合时间序列信息的视频分析方法等。
丰富的参考文献： 论文引用了该领域从传统图像处理到现代深度学习的代表性工作，为读者提供了完整的学术脉络和技术演进背景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问