用于隧道掌子面特征识别的上下文感知语义分割网络

分享自：
用于隧道掌子面特征识别的上下文感知语义分割网络

工程学
建筑与土木工程
信息科学
人工智能
计算机科学
期刊:Automation in ConstructionDOI:10.1016/j.autcon.2024.105560
【点击此处】阅读全文、收藏及针对性提问
本研究发表于Elsevier旗下的国际期刊《Automation in Construction》第165卷（2024年），文章标题为“Context-aware semantic segmentation network for tunnel face feature identification”（面向隧道掌子面特征识别的上下文感知语义分割网络）。该研究由西安建筑科技大学的Liang Zhao（赵亮，通讯作者）、Shuya Hao（郝淑雅）以及Zhanping Song（宋战平）共同完成。研究团队来自西安建筑科技大学的信息与控制工程学院、陕西省岩土与地下空间工程重点实验室以及土木工程学院。文章于2024年6月14日在线发表。
一、 学术背景 本研究属于土木工程、计算机视觉与人工智能交叉领域，具体聚焦于隧道工程智能建造中的地质信息自动化判译。隧道掌子面的地质信息（如岩性、结构、不良地质体等）是进行围岩分级和施工决策的关键依据。传统上，这些信息依赖于工程师在现场进行人工、主观且有时具有危险性的接触式测量与分析，效率低且一致性差。近年来，基于深度学习和计算机视觉的智能场景理解技术在隧道工程领域展现出巨大潜力，能够将工程师从繁重劳动中解放出来，并实现在线自动化分析。
尽管基于卷积神经网络（Convolutional Neural Network, CNN）的方法在隧道衬砌裂缝、渗漏水等缺陷检测，以及掌子面岩体结构、弱夹层、地下水等地质特征的识别与量化方面已取得一定成果，但CNN固有的局部感受野限制了其捕捉图像全局上下文信息的能力。这导致CNN在处理地质特征中存在的细长带状目标时，识别精度往往不足。另一方面，Transformer架构在自然语言处理中取得成功后，被引入计算机视觉任务。其自注意力机制能有效建模全局依赖关系，但可能忽略图像分割所需的局部细节和空间不变性。因此，结合CNN与Transformer的优势，构建混合模型以同时提取局部与全局特征，成为提升分割性能的一个有前景的方向。此外，地质目标通常具有多尺度特性（例如，从大范围的岩层到细小的裂隙），这对分割算法的多尺度特征表达能力提出了更高要求。
基于以上背景，本研究旨在克服现有自动化判译方法精度不足的局限，提出一种新颖的、面向隧道掌子面地质信息精准识别的智能识别算法。该算法的目标是实现像素级的精确语义分割，为隧道围岩智能分级模型的构建提供坚实的数据支撑。具体而言，研究目标包括：1）设计一个能够有效融合局部与全局上下文信息的编码器；2）构建一个能够优化多尺度特征融合的解码器，以提升对多尺度地质目标的识别精度；3）建立一个高质量的隧道掌子面图像数据集用于算法训练与验证；4）通过实验证明所提算法相较于现有主流算法的优越性。
二、 研究流程详述 本研究主要包含三个核心流程：隧道掌子面数据集的构建、新型语义分割网络TCSENet的设计与实现、以及全面的实验验证与分析。
第一流程：隧道掌子面数据集构建 研究对象为从某高速公路隧道施工过程中，工程师为地质记录所拍摄的数字图像。原始图像经过裁剪，统一调整为448×448像素以规范尺寸并降低计算成本。为了扩充数据集规模、增加多样性并避免训练过程中的过拟合问题，研究采用了空间层面的变换（如旋转、镜像）和像素层面的变换（如添加噪声、调整亮度）进行数据增强。 数据集标注工作使用LabelMe标注软件完成。标注人员对图像中的四种地质特征类别进行手动精细标注，这四类分别是：玢岩、花岗岩、黄土粘土和断层。标注结果为包含特征轮廓位置、像素值及标签名的JSON文件，并进一步转换为用于模型训练和结果评估的视觉化标签图。 最终，通过收集、增强和人工标注流程，构建了一个包含7792张图像的高质量隧道掌子面数据集。该数据集按80%（训练集）、10%（验证集）和10%（测试集）的比例随机划分。统计分析表明，该数据集存在类别不平衡问题，且目标具有明显的多尺度特征。这为后续算法设计（特别是多尺度处理和类别平衡学习）提供了现实的挑战和验证场景。
第二流程：TCSENet网络模型设计 本研究的核心创新是提出了一种名为TCSENet的语义分割网络，其整体结构由三部分组成：混合编码器（HyCot）、解码器（SebifrPN）和预测网络。
1. 混合编码器（HyCot） HyCot的设计目标是有效捕获并融合图像的局部与全局上下文信息。它由一个共享主干模块和一个分层特征提取模块构成。 * 分层特征提取模块： 该模块并行地使用CNN块和Transformer块。CNN块（由两个1×1卷积层和一个3×3深度可分离卷积层构成）负责提取局部上下文信息。Transformer块则基于改进的Efficient Multi-head Self-Attention和Mix-FFN设计，用于捕获全局上下文依赖关系。其中，Efficient Multi-head Self-Attention通过空间降维操作降低了计算复杂度。 * 上下文特征自适应选择模块： 这是HyCot的关键创新模块。由于CNN和Transformer的计算特性不同，简单的特征相加无法有效融合信息，甚至可能对后续特征提取产生负面影响。因此，研究团队设计了上下文特征自适应选择模块（Context Feature Adaptive Selection Module, CFAS）。该模块首先通过一个通道门单元，对CNN和Transformer输出的特征在通道维度上进行自适应权重分配，生成强调不同通道重要性的特征图。随后，这些加权后的特征图被送入空间门单元，该单元在空间维度（即图像的每个像素位置）上再次进行自适应融合，最终输出融合了局部细节与全局语义的、信息更丰富的特征。这一交叉融合机制实现了特征的有效交互与重用。
2. 解码器（SebifrPN） 解码器的目标是将编码器提取的不同尺度的特征图进行融合与上采样，恢复分辨率，并生成用于最终像素分类的特征图。针对地质特征的多尺度问题，研究基于双向特征金字塔网络（Bidirectional Feature Pyramid Network, BiFPN）的思想，提出了语义分割双向特征细化金字塔网络（Semantic segmentation Bi-direction Feature Refinement Pyramid Network, SeBiFrPN）。 * 改进的融合路径： 与目标检测任务不同，语义分割需要恢复特征图分辨率。因此，研究修改了BiFPN的融合方向，采用一种自底向上再自顶向下的双路径融合策略。第一条路径自底向上融合深层高级语义信息；第二条路径自顶向下融合浅层空间细节信息，逐步细化预测图。 * 多尺度特征细化模块： 直接融合不同尺度的特征会产生大量冗余和冲突信息，限制多尺度表达能力，并增加小目标识别的难度。为此，研究设计了多尺度特征细化模块（Multi-scale Feature Refinement Module, MFRM）。该模块包含两个分支：空间过滤分支和通道过滤分支。空间过滤分支为待融合的两个不同层级特征图生成空间注意力权重图，指导模型关注更重要的空间位置。通道过滤分支则借鉴ECANet的思想，通过一维卷积计算通道注意力权重，强调更重要的特征通道。最后，基于这两个维度学习到的自适应权重对不同层级的特征进行融合，从而过滤冲突信息，高效地实现多尺度特征融合。
第三流程：实验验证与分析 实验硬件采用NVIDIA GeForce RTX2080Ti显卡，软件基于Ubuntu 20.04平台，使用PyTorch框架。 * 评估指标： 采用类别像素精度（Class Pixel Accuracy, CPA）、平均像素精度（Mean Pixel Accuracy, MPA）、平均交并比（Mean Intersection over Union, mIoU）来定量评估分割性能。此外，考虑到地质特征漏检对后续施工决策的影响，额外引入了平均类别像素遗漏率（Mean class Pixel Omission, MPO）作为有效性评估指标。 * 训练策略： 使用AdamW优化器，采用“poly”学习率衰减策略。训练过程中对输入图像应用随机缩放和随机光度畸变以增强模型泛化能力。 * 实验设计： * 消融实验： 为验证HyCot编码器和SebifrPN解码器中各模块的有效性，进行了系统的消融研究。 * 编码器消融： 以TCSENet为基线，分别将编码器替换为纯CNN（ResNet-34）、纯Transformer（MiT-B2），以及在HyCot中分别使用直接相加和CFAS模块进行融合。结果表明，结合CNN与Transformer的HyCot编码器性能优于单一架构，且使用CFAS模块进行自适应融合相比直接相加，在mIoU上提升了2.33%，MPO降低了4.84%。 * 解码器消融： 逐步在基线模型（FPN-like解码器）上添加改进的双向融合路径（re-BiFPN）、额外尺度特征图（C6）以及MFRM模块。实验结果显示，完整的SebifrPN解码器（包含所有组件）将mIoU从89.87%提升至92.57%，将MPO从9.64%显著降低至4.03%，证明了其对提升多尺度特征表达能力和识别精度的有效性。 * 对比实验： * 在自建隧道数据集上： 将TCSENet与8种经典的语义分割网络（包括LinkNet、DeepLabv3、DeepLabv3+、PSPNet、UNet++、PANet、SegFormer、FFNet）进行对比。TCSENet取得了最佳性能，其mIoU达到92.57%，MPA达到94.61%，MPO最低为4.03%。特别是在黄土粘土和断层类别上，CPA显著优于其他模型。可视化结果显示，TCSENet对光照不均、带状特征以及小尺度地质目标的识别都更加精确。 * 在公开数据集Cityscapes上： 为了进一步验证模型的通用性和先进性，在Cityscapes数据集上进行了对比实验。TCSENet取得了74.23%的mIoU，优于包括DeepLabv3+、SegFormer在内的所有对比模型，证明其不仅针对特定隧道场景有效，也具备良好的泛化能力。
三、 主要研究结果 1. 成功构建了高质量隧道掌子面数据集： 包含7792张手工标注图像，涵盖四种地质类别，并进行了数据增强，为算法训练和领域研究提供了宝贵资源。 2. 提出了高性能的语义分割网络TCSENet： * 在自建数据集上，TCSENet的mIoU达到92.57%，MPA达到94.61%，MPO低至4.03%。 * 消融实验数据证实，其核心组件——用于融合局部与全局特征的CFAS模块和用于优化多尺度融合的SebifrPN解码器（内含MFRM模块）——均为性能提升做出了显著贡献。CFAS模块相比直接相加融合，带来了超过2%的mIoU增益；完整的SebifrPN相比基础FPN结构，将mIoU提升了近3%。 * 与8个主流模型对比，TCSENet在各项指标上均表现最优，尤其是在处理带状目标和小尺度目标方面优势明显。 * 在公开数据集Cityscapes上的优异表现（mIoU 74.23%）进一步证明了TCSENet网络架构的先进性和泛化能力。 3. 通过详细的定量指标（CPA、MPA、mIoU、MPO）和丰富的可视化分割结果图，全面、客观地展示了TCSENet在隧道掌子面地质特征识别任务上的优越性能。 这些结果清晰地表明了，从局部/全局特征融合到多尺度特征处理，TCSENet的设计是有效且成功的。
四、 结论 本研究针对现有隧道掌子面地质信息自动判译方法识别精度低的问题，提出了一种新颖的上下文感知语义分割网络TCSENet。研究得出以下结论： 1. TCSENet通过其编码器HyCot有效融合了CNN提取的局部上下文信息和Transformer提取的全局上下文信息，并通过解码器SebifrPN优化了多尺度特征的融合与表达。 2. 在构建的隧道掌子面数据集上，TCSENet实现了高精度的地质特征分割（mIoU 92.57%），其性能显著优于现有的经典语义分割模型。 3. 隧道掌子面地质特征的准确识别，对隧道工程的安全可靠设计与施工具有重要的指导意义。TCSENet的分割结果可为隧道掌子面围岩分级模型的构建提供数据基础。
五、 研究亮点 1. 创新性的网络架构： 提出了TCSENet这一专为隧道地质特征识别设计的语义分割网络，其核心创新点在于CFAS模块和SebifrPN解码器（含MFRM模块），分别解决了局部/全局上下文信息的高效融合以及多尺度特征融合中的信息冲突问题。 2. 针对性的问题解决： 研究精准定位了现有CNN方法在捕捉全局上下文和Transformer在保留局部细节方面的不足，以及多尺度目标识别的挑战，并通过混合架构和精细化模块设计予以解决。 3. 高质量专业数据集： 构建并开源了一个大规模、手工精细标注的隧道掌子面地质特征数据集，填补了该领域高质量公开数据集的空白，对推动相关研究具有重要意义。 4. 严谨充分的实验验证： 通过系统的消融实验、与多种前沿模型的对比实验，以及在专业数据集和公开数据集上的双重验证，全面、有力地证明了所提方法的有效性和先进性。 5. 明确的工程应用价值： 研究直接面向隧道工程智能建造的实际需求，算法的高精度识别结果可直接用于支持围岩智能分级和施工决策，具有明确的工程应用前景和潜在的经济、安全效益。
六、 其他有价值内容 文章在最后也客观指出了TCSENet当前存在的局限性：一方面，模型设计优先考虑分割性能，导致结构相对复杂，训练时间较长；另一方面，在边缘分割的精确度上仍有提升空间。作者明确了未来的优化方向：进一步提高模型效率、缩短训练时间，并致力于提升边缘分割的准确性。这种对研究不足之处的坦诚和对未来工作的规划，体现了研究的严谨性和延续性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问