基于图卷积引导Transformer的隧道衬砌裂缝分割方法CGV-Net

分享自：
基于图卷积引导Transformer的隧道衬砌裂缝分割方法CGV-Net

工程学
建筑与土木工程
信息科学
人工智能
计算机科学
期刊:buildingsDOI:10.3390/buildings15020197
【点击此处】阅读全文、收藏及针对性提问
基于图卷积引导Transformer的隧道衬砌裂缝分割方法：CGV-Net
作者及机构
本项研究的主要作者为Kai Liu、Tao Ren、Zhangli Lan、Yang Yang、Rong Liu和Yuantong Xu。作者团队主要来自重庆交通大学信息科学与工程学院、中铁长江交通设计集团有限公司以及重庆交通大学未来土木工程科学与技术研究院。该项研究成果以学术论文形式发表于学术期刊《Buildings》，论文在线发表日期为2025年1月10日。这篇题为“CGV-Net: Tunnel Lining Crack Segmentation Method Based on Graph Convolution Guided Transformer”的论文报告了一项关于隧道结构健康监测中裂缝自动识别技术的原创性研究。
学术背景与研究目的
本研究属于计算机视觉与土木工程基础设施智能检测的交叉领域，具体聚焦于利用深度学习技术进行隧道衬砌裂缝的语义分割。隧道衬砌开裂是最常见的隧道病害形式之一，会加速结构老化，对隧道运营和行车安全构成严重威胁。传统的裂缝检测主要依赖技术人员人工目视或使用简单设备，这种方法费时费力、效率低下且易受主观因素影响，结果一致性差。尽管基于传统图像处理算法和早期深度学习模型（如U-Net, SegNet等）的自动化方法取得了一定进展，但在面对隧道内复杂的实际环境时仍存在显著局限。这些挑战包括：不均匀的人工照明、裂缝形态细长（纵向、环向裂纹）、背景复杂（如渗水痕迹）、以及图像采集时光照条件多变等。现有模型往往侧重于局部特征提取，缺乏不同局部区域间的信息交互，导致对裂缝全局结构模式的理解不足；同时，在编码器-解码器网络结构中，特征信息在层层传递过程中容易丢失，这些因素共同制约了分割精度的进一步提升。
因此，本研究旨在解决上述挑战，具体目标为：1）提出一种能够有效结合局部特征与全局上下文信息的新型网络架构，以提升复杂背景下裂缝分割的准确性与鲁棒性；2）设计模块以减少网络编码-解码过程中的特征损失；3）构建一个包含多样裂缝类型和复杂背景的隧道裂缝数据集，以弥补现有公开数据集的不足，并为模型训练与评估提供更贴近实际场景的数据基础。
详细工作流程
本研究的工作流程主要包括以下几个步骤：提出新型网络模型CGV-Net、构建并标注自定义数据集TunnelCrackDB、设计实验环境与评估指标、进行对比实验与消融实验以验证模型性能。
1. 网络模型CGV-Net的设计与构建 CGV-Net是本研究的核心创新，它是一个集成了卷积神经网络（CNN）、图神经网络（GNN）和视觉Transformer（ViT）的编码器-解码器架构。网络主体包含五层编码操作和五层解码操作。其创新性主要体现在两个关键模块：CGV模块和DMFF模块。
CGV模块（CNN, GNN and ViT Module）：该模块作用于编码器最后一层输出的特征图上。其设计目的是增强不同局部特征区域之间的信息交换，以提升模型对裂缝全局结构模式的推理能力。具体工作流程如下：
图结构构建：将编码器最终输出的最小尺寸特征图（尺寸为 W × H × C）中的每个像素块视为图中的一个节点，节点特征即该像素块的特征向量，从而形成一个节点特征矩阵。然后，利用自注意力机制计算节点之间的注意力系数，这些系数构成了图的邻接矩阵，代表了节点间连接的重要性权重。
图推理与信息交互：构建好的图结构被输入到一个多层图神经网络中进行推理。在每一层GNN中，节点的特征会根据其邻居节点的特征和连接权重进行更新和聚合。这个过程模拟了图像中不同局部区域之间的信息传递与整合。随后，更新后的节点特征再通过一个视觉Transformer（ViT）模块，利用其多头注意力机制进一步捕捉长程依赖关系。最终，通过一个逆投影函数将处理后的图节点特征还原为与输入尺寸兼容的特征图。通过CGV模块，模型能够同时学习裂缝的局部细节和全局上下文信息。
DMFF模块（Detailed-Macro Feature Fusion Module）：该模块部署在解码器末端，旨在融合不同尺度的特征，以补偿编码和解码过程中可能丢失的关键信息。DMFF由两个子模块构成：
MFB（Macro Fuse Block）：负责融合相对粗糙尺度（来自编码器较浅层）的特征图。它通过简单的加法操作和1×1卷积，合并来自编码器第2层和第3层的特征。
DFB（Detailed Fuse Block）：负责融合更精细尺度（来自编码器深层和解码器浅层）的特征图。它对来自编码器第5层和解码器第1层的特征分别进行1×1卷积和批量归一化处理后，利用一个线性注意力机制计算融合权重，再进行加权融合。
最后，MFB和DFB输出的特征图相加，再经过1×1卷积和Sigmoid激活函数，生成最终的裂缝分割二值图。
2. 数据集TunnelCrackDB的构建 为了解决现有公共数据集裂缝类型单一、背景简单的问题，本研究自主构建了名为TunnelCrackDB的隧道衬砌裂缝数据集。该数据集数据来源于中国四川-重庆地区多条不同长度运营隧道的实地采集，由中铁长江交通设计集团有限公司完成。数据集共包含982张分辨率为512×512像素的隧道衬砌图像，涵盖了纵向裂缝、环向裂缝、斜向裂缝、网状裂缝、交叉裂缝和发丝裂缝等多种裂缝形态，并且包含了复杂光照、渗水背景等挑战性场景。所有图像均使用开源软件LabelMe进行了像素级人工精细标注，将裂缝像素标记为1（白色），非裂缝像素标记为0（黑色）。数据按约9:1的比例划分为训练集（包含验证集）和测试集。
3. 实验设置与评估方法 实验在配备NVIDIA RTX 4070 Ti GPU的服务器上进行，使用PyTorch框架。训练超参数包括：学习率1e-4，批次大小16，训练轮数200，使用Adam优化器。为全面评估模型性能，采用了精确率（Precision）、召回率（Recall）、F1分数（F1-score）和平均交并比（mIoU）四个通用语义分割评价指标。
4. 性能验证实验设计 研究设计了两种主要的实验来验证CGV-Net的有效性： * 对比实验：将CGV-Net与当前主流的语义分割模型（如U-Net, SegNet, PSPNet, DeepLabv3, DeepLabv3+, DeepCrack-Net）在公共裂缝数据集和自建的TunnelCrackDB数据集上进行性能比较，使用上述四个指标进行定量评估，并提供了分割结果的可视化对比。 * 消融实验：在TunnelCrackDB数据集上，以基线网络（SegNet）为基础，逐步添加CGV模块和DMFF模块，通过控制变量法分析每个模块对最终性能的贡献。
主要研究结果
1. 在公共裂缝数据集上的结果 在公共裂缝数据集的测试中，CGV-Net在多项指标上取得了最佳或接近最佳的性能。具体而言，其召回率（73.27%）和F1分数（57.32%）均为所有对比模型中最高的，平均交并比（mIoU, 56.14%）也表现优异。尽管其精确率（47.11%）略低于SegNet（47.06%），但更高的召回率和F1分数表明CGV-Net在尽可能多地识别出真实裂缝（减少漏检）与保持识别准确性之间取得了更好的平衡。可视化结果也显示，相较于其他模型，CGV-Net对细长、断续的裂缝有更完整、连贯的分割效果。这一结果初步验证了CGV模块通过增强全局上下文理解，能够改善对复杂裂缝结构的推理能力。
2. 在TunnelCrackDB数据集上的结果 在更具挑战性的自建数据集TunnelCrackDB上，CGV-Net的优势更为明显。其精确率（81.15%）、召回率（83.54%）、F1分数（82.33%）和mIoU（81.24%）均显著超过所有对比模型，全面领先。例如，相比表现次优的DeepLabv3+，CGV-Net在F1分数和mIoU上分别提升了约0.4和0.4个百分点。这一结果强有力地证明了CGV-Net在处理背景复杂、类型多样的真实隧道裂缝图像时具有卓越的鲁棒性和泛化能力。分割可视化图显示，CGV-Net在渗水区域、光照不均等干扰下，仍能较准确地勾勒出裂缝轮廓，误判和漏判较少。
3. 消融实验结果 消融实验的结果清晰地量化了CGV模块和DMFF模块的贡献。单独添加CGV模块到基线模型后，mIoU从80.36%提升至80.57%，召回率保持稳定，表明其增强了模型对裂缝全局结构的感知，略微提升了分割的一致性。单独添加DMFF模块后，mIoU提升至80.48%，精确率有较明显提升（从79.43%至80.81%），说明多尺度特征融合有效保留了细节信息，提升了分割边界的准确性。当CGV模块和DMFF模块共同作用时（即完整的CGV-Net），模型性能实现了协同提升，mIoU达到最高的81.24%，且精确率和召回率同时获得显著改善。这证实了两个模块设计的有效性与互补性：CGV模块负责宏观结构推理，DMFF模块负责微观细节修复，共同驱动了分割性能的全面优化。
4. 模型复杂度分析 研究还对比了模型的浮点运算量（FLOPs）和参数量。CGV-Net的参数量为55.36M，是所比较模型中最大的，这反映了其相对复杂的结构。其FLOPs为42.1G，处于中等水平。尽管参数量较大，但CGV-Net凭借其创新的架构，在计算开销可控的情况下，实现了最高的分割精度，表明了该模型在精度与效率权衡上的价值。
研究结论与价值
本研究成功提出并验证了一种名为CGV-Net的新型隧道衬砌裂缝分割网络。该网络通过创新的CGV模块（融合CNN、GNN和ViT）有效建模了裂缝的局部特征与全局上下文之间的关联，并通过DMFF模块减轻了网络深层特征损失，从而显著提升了在复杂环境下裂缝分割的准确性、召回率和鲁棒性。
研究的科学价值在于：1）为图像分割领域提供了一种结合图卷积与Transformer的新架构思路，特别是在处理具有复杂空间结构（如细长、网状裂缝）的目标时；2）提出了一种基于图表示的裂缝建模方法，促进了计算机视觉中结构先验知识的利用；3）设计的多尺度细-粗特征融合策略，对改善编码器-解码器类网络的性能具有普适参考意义。
研究的应用价值显著：所开发的CGV-Net模型为隧道结构健康状态的自动化、高精度检测提供了强有力的工具。构建并开源TunnelCrackDB数据集填补了该领域高质量、多样化数据的空白，能够推动相关研究的进一步发展。这项技术有望替代低效、主观性强的人工巡检，实现隧道病害的定期、快速、客观评估，为预防性养护和结构安全风险评估提供关键数据支撑，具有重要的工程实用价值和社会经济效益。
研究亮点
方法创新性高：首次提出将图神经网络（GNN）用于引导视觉Transformer（ViT）进行裂缝分割，通过构建图像特征的图结构并利用GNN进行节点间信息传递，巧妙地解决了CNN模型在长程依赖和全局结构建模上的不足。
模块设计巧妙且互补：CGV模块与DMFF模块分别从“增强特征间关系理解”和“减少特征传播损失”两个不同但关键的角度出发，协同提升了网络性能，消融实验充分证明了其各自的有效性与联合增益。
注重实际应用需求：研究直面隧道检测中的真实挑战（复杂光照、渗水、多样裂缝形态），不仅改进了算法，还精心构建了贴近实际场景的TunnelCrackDB数据集，体现了从实际问题出发、服务于工程应用的鲜明导向。
实验验证充分：通过在公共数据集和自建数据集上的广泛对比实验，以及严谨的消融实验，全面、客观地评估了模型性能，结论令人信服。同时，对模型复杂度的分析也增加了研究的完整性。
其他有价值内容
论文在引言部分对隧道裂缝检测的技术发展脉络进行了清晰的梳理，从传统图像处理方法到基于CNN、Transformer的深度学习方法，指出了当前研究的局限性，为本研究的创新点提供了充分的立论基础。此外，作者在结论部分展望了未来的研究方向，例如对分割出的裂缝进行宽度、长度等参数的量化以用于结构风险评级，以及探索模型在桥梁、建筑等其他基础设施病害检测中的迁移学习潜力，为领域的后续发展提供了思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问