分享自:

基于超分辨率重建与三重注意力的隧道渗漏水智能识别方法

期刊:MeasurementDOI:10.1016/j.measurement.2023.114009

本研究由淮阴工学院的陈曦、张坤、胡琨、徐阳和河海大学岩土工程研究所的王伟共同完成,其研究论文《Intelligent identification of tunnel water leakage based on super-resolution reconstruction and triple attention》发表于Elsevier旗下的期刊《Measurement》2024年225卷,在线发表日期为2023年12月12日。

该研究隶属于隧道工程结构健康监测与人工智能交叉领域。其学术背景源于隧道在长期运营中,受地下水侵蚀、材料老化等因素影响,渗漏水病害极为普遍,对结构安全和运营构成严重威胁。传统的渗漏水识别主要依赖人工巡检,效率低、成本高、存在安全风险且易出现漏判误判。基于计算机视觉的识别方法(如阈值法、边缘检测法)虽然实现了自动化,但在光照条件差、图像模糊时准确性骤降,且算法适应性差,需针对不同环境调整参数。近年来,深度学习(Deep Learning)方法凭借其强大的特征自动学习能力,在图像识别任务中展现出优越性能,逐步被应用于隧道渗漏水智能检测中。然而,现有基于深度学习的识别方法仍存在两大局限:一是由于隧道拱顶、拱腰等位置较高,采集的图像常存在分辨率不足、缺陷边界不清的问题,易导致边界分割不准、漏分割或将暗色背景误识别为渗漏区域;二是现有研究大多只关注深色渗漏水,而实际隧道渗漏根据颜色特征和严重程度可分为多种类型,需进行分类识别。针对这些问题,本研究旨在提出一种新的智能分割方法,以同时提升渗漏水图像的分割精度和模型对环境干扰的抵抗能力。本研究的目标是开发一种融合超分辨率重建(Super-Resolution Reconstruction)和三元注意力机制(Triple Attention)的改进UNet网络(命名为TR-UNet),实现对隧道渗漏水的高精度、强鲁棒性识别与分类。

本研究的工作流程系统而严谨,主要包括四大阶段:数据集构建、模型构建与训练、模型对比实验、消融实验(Ablation Experiment),以验证所提方法的有效性。下面将详细阐述每个步骤的具体内容。

第一阶段:数据集的构建与处理。 研究团队使用iPhone XR和佳能EOS 200D相机共采集了512张隧道渗漏水图像,分辨率在500至4000像素之间。根据渗漏颜色特征与严重程度的关联性,创新性地将渗漏缺陷分为三类:深色渗漏水(Dark Water Leakage)、绿色渗漏区(Green Water Leakage)和白色干渍痕(White Dry Water Stained)。分类依据为:1)正在发生的渗漏区因水的低反射率而呈现深色;2)长期潮湿区域易滋生苔藓而呈绿色,对结构稳定性影响最大(定义为I类);3)非雨季干燥后形成的渍痕因混凝土碱性物质析出而呈浅色甚至白色,虽暂时无水但属潜在渗漏区,影响最小(定义为III类)。深色渗漏水为II类。经两名专业隧道检测人员划分,最终得到I类图像144张,II类288张,III类130张。随后,研究采用了翻转、旋转、添加噪声等多种数据增强(Data Augmentation)方法扩充数据集,最终训练集、验证集和测试集的数量分别为501张、102张和102张。所有图像均使用LabelMe软件进行像素级标注,I类区域标为绿色,II类为红色,III类为棕色,背景为黑色,形成了可用于语义分割任务的数据集。

第二阶段:TR-UNET模型构建与训练。 本研究提出的TR-UNet方法是一个串联的处理与分析流程。首先,将尺寸为416×416的训练集和测试集图像输入到Real-ESRGAN超分辨率重建模块中。Real-ESRGAN是一种基于生成对抗网络(Generative Adversarial Networks)的算法,其生成器主要由残差中的残差密集块(Residual-in-Residual Dense Block, RRDB)和上采样模块构成,旨在从低分辨率图像生成高质量的高分辨率图像。本研究利用隧道渗漏水图像对预训练的Real-ESRGAN模型进行微调(Fine-tune),训练时结合了感知损失(Perceptual Loss)、对抗损失(Adversarial Loss)和内容损失(Content Loss)。经过该模块处理后,图像分辨率提升至832×832,渗漏区域的边缘细节得到增强。然后,将高分辨率图像输入改进的UNet网络。改进主要体现在三方面:1)引入Focus模块对高分辨率图像进行切片操作,将其转换为416×416×12的特征层,在不损失信息的前提下降低计算负担;2)在UNet编码器(Encoder)的每次下采样操作之前,引入本研究提出的三元注意力机制。该机制是核心创新之一,由两个并行分支构成:分支一串联了通道注意力模块(Channel Attention Module, CAM)和空间注意力模块(Spatial Attention Module, SAM),用于提取渗漏的有效局部特征;分支二为自注意力模块(Self-Attention, SA),用于建立特征层任意位置间的长距离依赖,提取丰富的全局特征。最后将两个分支的输出融合,从而增强模型对重要通道、重要空间位置以及全局上下文信息的感知能力,提升抗干扰性。模型训练采用两阶段策略:前50轮为冻结训练(Freeze Training),固定主干网络权重;后150轮为解冻训练(Thawing Training),更新全部网络权重。训练超参数如批次大小(Batch-size)、学习率等均经过精心设置。通过监控训练损失和验证损失曲线,确保模型收敛且未过拟合。

第三阶段:模型对比实验与性能评估。 为验证TR-UNet的综合性能,研究选取了UNet、PSPNet、DeepLabV3+、ACPA-Net和SOLOV2-TL五个先进的语义分割或实例分割网络作为对比模型。所有模型在同一数据集上训练和测试。评估指标包括:像素准确率(Pixel Accuracy, PA)、平均像素准确率(Mean Pixel Accuracy, MPA)、交并比(Intersection over Union, IoU)、平均交并比(Mean Intersection over Union, mIoU),以及模型大小和每秒帧数(Frames Per Second, FPS)效率指标。实验结果显示,TR-UNet在分割精度上全面领先。其mIoU达到84.31%,MPA达到88.95%,分别比表现次优的对比模型高出4.57%和3.85%以上。对于三类渗漏各自的IoU和PA值,TR-UNet也均为最高。通过假设检验(p值分析),证实了TR-UNet在mIoU上的提升具有统计显著性(p值均小于0.05)。在效率方面,TR-UNet模型大小为123.4 MB,推理速度为13.40 FPS,在精度和效率间取得了良好平衡。可视化分割结果进一步证明,在面对管道重叠、暗色照明设备、白色干扰物等复杂背景干扰,以及渗漏边界模糊的情况时,TR-UNet表现出更少的误识别、漏识别现象,且边缘分割细节更佳。此外,研究还在一个开源的隧道渗漏水数据集上测试了TR-UNet,其mIoU和MPA分别达到90.57%和95.08%,验证了模型在其他隧道环境中的良好适用性和泛化能力。

第四阶段:消融实验验证关键组件有效性。 为剖析TR-UNet性能提升的来源,研究进行了系统的消融实验。首先,验证了Real-ESRGAN超分辨率重建模块的作用。实验对比了使用和不使用该模块时改进UNet的性能。结果表明,使用Real-ESRGAN后,模型的mIoU和MPA分别提升了2.83%和2.64%,且从分割结果图可直观看出,渗漏区域的边缘细节得到了显著优化。其次,验证了三元注意力机制的有效性。研究设计了多组对照实验,分别测试了不使用任何注意力、单独使用CAM、单独使用SAM、单独使用SA、使用经典注意力SE(Squeeze-and-Excitation)和ECA(Efficient Channel Attention),以及使用完整三元注意力机制的情况。评估指标采用了背景误判率(BR,背景像素被误判为渗漏的比例)和渗漏漏判率(CR,渗漏像素被误判为背景的比例)。实验结果数据表明,完整的三元注意力机制取得了最低的BR(3.25%)和CR(6.74%),显著优于其他任何单一注意力或组合。这证明了将通道、空间和自注意力三者融合,能更全面地提升模型聚焦有效特征、抵抗环境干扰的能力。可视化结果也显示,配备三元注意力的模型在面对干扰时分割结果最准确。

基于上述系统的实验流程和得到的结果数据,本研究得出明确结论:所提出的基于超分辨率重建和三元注意力的TR-UNet方法,是一种有效的隧道渗漏水智能识别与分类解决方案。其主要结论如下:1)TR-UNet在分割精度(mIoU 84.31%, MPA 88.95%)上显著优于其他对比模型。2)分割结果表明,TR-UNet具有更好的边缘细节和更少的误分割、漏分割现象,适用于复杂环境下的隧道渗漏识别任务。3)根据特征和严重程度对渗漏水进行的三分类方法可行,且TR-UNet能对此三类渗漏进行准确分类识别。4)消融实验证实,Real-ESRGAN超分辨率重建方法能增强图像细节从而提高分割精度,三元注意力机制能有效提升模型的抗环境干扰能力。

本研究的价值体现在多个层面。在科学价值方面,它提出并验证了将超分辨率重建技术与融合了通道、空间及自注意力的新型三元注意力机制相结合,用于提升语义分割模型在特定工程场景(隧道渗漏)下性能的技术路径。这为图像处理与计算机视觉领域,特别是面向低质量、高噪声工业图像的分割任务,提供了新的方法参考。在应用价值方面,该方法能有效克服现有隧道渗漏自动检测方法在图像分辨率低、边界不清、环境干扰多时的局限性,为实现隧道结构病害的快速、精准、自动化巡检与评估提供了强有力的技术工具,有助于降低运维成本、保障运营安全,具有重要的工程实践意义。

本研究的亮点突出:第一,研究问题具有明确的工程针对性和挑战性,直指隧道渗漏检测中“图像不清”和“干扰众多”两大痛点。第二,方法创新具有系统性,并非简单堆砌现有技术,而是设计了从图像预处理(超分重建)到网络结构优化(三元注意力)的完整改进方案,且两者协同工作。第三,提出的三元注意力机制是核心创新点,它创造性地将CNN基础的局部注意力(CAM, SAM)与能捕捉全局关系的自注意力(SA)进行并行融合,兼顾了局部特征增强与全局上下文建模,结构设计巧妙。第四,数据工作扎实且具有前瞻性,不仅建立了数量可观的数据集,还创新性地根据颜色与严重程度对渗漏水进行了系统的三级分类,为后续研究提供了有价值的基准数据集和分类框架。第五,实验验证非常充分,通过详细的对比实验、跨数据集验证和严谨的消融实验,层层递进地证明了各改进组件的有效性和模型的整体优越性,使结论具有很高的可信度。这是一项设计严谨、创新显著、结论可靠且具有重要应用潜力的优秀研究。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com