分享自:

SegTransConv:用于自动驾驶实时语义分割的Transformer与CNN混合方法

期刊:IEEE Transactions on Intelligent Transportation SystemsDOI:10.1109/TITS.2023.3313982

本文介绍了由Jiaqi Fan, Bingzhao Gao, Quanbo Ge, Yabing Ran, Jia Zhang, Hongqing Chu等人于2024年2月发表在IEEE Transactions on Intelligent Transportation Systems(卷25,第2期)上的一篇学术论文。该论文题为《SegTransConv: Transformer and CNN Hybrid Method for Real-Time Semantic Segmentation of Autonomous Vehicles》(SegTransConv:用于自动驾驶汽车实时语义分割的Transformer和CNN混合方法)。这项研究属于计算机视觉与自动驾驶场景理解的交叉领域,核心目标是设计一种能够在自动驾驶车辆上高效运行的实时、高性能语义分割模型。在当前背景下,语义分割技术是实现车辆环境感知和决策规划的关键。然而,现有方法往往难以在模型精度、推理速度和计算复杂度三者之间取得良好平衡。传统基于卷积神经网络(CNN,Convolutional Neural Network)的方法虽然结构轻量、速度较快,但受限于局部感受野,难以捕捉全局上下文信息,限制了其精度上限。而新兴的基于Transformer的方法虽然能有效建模长距离依赖关系,获得更高的分割精度,但其巨大的计算量和参数量往往导致推理速度缓慢,难以满足自动驾驶对实时性的严苛要求。因此,该研究旨在通过深度融合Transformer和CNN的优势,构建一种新型的混合编码器-解码器结构,以期在保证实时推理速度的同时,显著提升语义分割的精度,为自动驾驶系统提供更可靠、更高效的场景理解能力。

研究流程与方法

本研究的工作流程主要围绕SegTransConv模型的架构设计、训练策略和评估体系展开,包含以下几个关键部分:模型整体架构设计、编码器-解码器核心模块创新、知识蒸馏训练策略应用,以及新型综合评估指标的设计与验证。研究过程使用了两个公开数据集(Cityscapes和CamVid)以及一组自采校园环境图像,并在统一的实验设置下进行训练、验证和测试。

首先,研究人员设计了SegTransConv的总体架构。该架构采用经典的编码器-解码器(Encoder-Decoder)结构,并集成了知识蒸馏策略。编码器是一个包含四个阶段的层级结构,每个阶段负责对输入图像进行逐步下采样和特征提取。解码器则采用U型结构,负责逐步融合不同尺度的特征并恢复图像分辨率,最终输出像素级分类结果。此外,本研究引入了一个高性能的CNN模型STDCNet作为教师网络,通过知识蒸馏指导学生网络(即SegTransConv)的训练,以期在不增加推理时计算负担的前提下提升学生网络的性能。

其次,研究的核心创新在于编码器和解码器内部的关键模块设计。在编码器的每个特征提取阶段,作者创新性地提出了一种Transformer与CNN的“串联”(Series)混合结构。具体而言,每个阶段首先使用两个Transformer层来处理特征序列,以捕获全局上下文信息,随后接续两个CNN基础块(Basic Block)来提取局部细节和空间特征。这种“先全局后局部”的串联设计,模仿了人类视觉认知过程,旨在同时建模长距离和短距离的空间依赖性,丰富特征表达。研究团队进行了详尽的消融实验,比较了多种CNN模块(如ResNet基础块、MobileNet反向残差块等)和不同结构(串行 vs. 并行)的效果,最终确定了串联结构和ResNet基础块为最佳组合。其中,Transformer层采用了一种高效的注意力机制,称为高效多头自注意力模块(EMSA, Efficient Multi-head Self-Attention)。该模块使用卷积投影代替传统的线性投影来生成Key和Value矩阵,显著降低了注意力机制的计算开销。

解码器部分,本研究设计了特征增强上采样模块(FE_Up Module, Feature Enhancement Upsampling Module)。传统解码器通常仅使用简单的上采样操作(如双线性插值或转置卷积)来恢复特征图尺寸。而FE_Up模块将自注意力机制引入上采样过程。该模块通过一个简单的上采样块生成Query矩阵,同时通过深度可分离卷积投影生成Key和Value矩阵。接着,利用多头自注意力机制对特征进行增强和融合,最后通过残差连接与原始上采样特征相加。这种设计不仅放大了特征图尺寸,还在上采样过程中有选择性地强化了特征表示,提升了分割细节的恢复能力。

再次,本研究应用了知识蒸馏策略来进一步提升模型性能。训练过程中,选择分割精度高的STDCNet(具体为STDC2-Seg75版本)作为“教师”网络,其参数固定不变。SegTransConv作为“学生”网络,其训练损失由两部分构成:一部分是与真实标签(Ground Truth)的交叉熵损失(硬损失),另一部分是与教师网络输出软标签(Soft Label)的KL散度损失(软损失)。通过这种方式,学生网络可以学习到教师网络中更丰富的类别间关系信息和更平滑的预测分布,从而获得超越自身原始容量的性能。实验表明,使用CNN模型作为教师网络的效果优于使用纯Transformer模型,这一发现与相关领域的结论一致。

最后,研究者特别强调了评估体系的重要性,并为此设计了一个新颖的综合评估指标(fβ)。现有的实时语义分割工作通常单独报告平均交并比(mIoU,Mean Intersection over Union)、每秒帧数(FPS,Frames Per Second)、浮点运算数(FLOPs,Floating-Point Operations)和参数量(Params)等指标,难以综合评价模型的实际部署价值。本研究提出的fβ指标通过归一化处理,将这四个指标综合为一个数值。具体公式考虑了精度与速度的调和均值(通过超参数β调整两者权重),并减去计算复杂度(FLOPs和Params乘积的归一化值)的惩罚项。当β设为0.5时,表示在评估中分割精度的权重是速度的两倍,这更符合自动驾驶场景下精度优先的评判标准。该指标旨在鼓励模型在精度、速度和轻量化三个维度上均衡发展。

实验流程上,模型在Cityscapes和CamVid数据集上分别进行训练和测试。训练时,采用了特定的数据预处理、学习率策略和优化器。在Cityscapes测试集上,模型以1024x512的输入分辨率进行评估,并最终在官方服务器上进行在线测试以获得权威的mIoU分数。同时,在RTX 3080和RTX 3090 GPU上测量了所有对比模型的推理速度。所有消融实验和对比实验均在相同的硬件和软件环境下进行,以确保结果的可比性。

主要结果

研究通过一系列实验验证了SegTransConv各个组件的有效性和整体性能。

消融实验部分,结果有力地支持了核心设计选择:1)编码器串联结构:实验表明,采用Transformer串联CNN基础块的编码器结构,其性能(67.92% mIoU)优于仅用Transformer的基线模型(64.36% mIoU),也优于Transformer与CNN并行融合的结构。这验证了“先全局后局部”串联策略的有效性。2)FE_Up模块:在解码器中使用两个FE_Up模块进行上采样的模型,其mIoU(71.96%)显著高于仅使用简单上采样块的基线(71.36%),也优于集成FPN、ASPP等流行上下文模块的解码器变体。特征图可视化显示,FE_Up模块有助于恢复更清晰的物体边界和细节。3)知识蒸馏:使用STDC2-Seg75作为教师网络进行知识蒸馏后,学生网络SegTransConv-B的mIoU从蒸馏前的71.96%提升到了72.97%。对比实验发现,CNN教师网络(STDCNet)带来的性能增益远大于Transformer教师网络(SegFormer-B2)或混合结构教师网络(OCR)。这证实了在语义分割任务中,CNN模型作为知识源的有效性。

与先进方法的对比实验中,SegTransConv展现了卓越的综合性能。在Cityscapes测试集上,输入分辨率为1024x512时,SegTransConv-A和SegTransConv-B分别取得了72.8%和73.0%的mIoU,推理速度高达68.0 FPS(RTX 3080 GPU)。尤为重要的是,SegTransConv-B仅拥有7.00百万参数和较低的FLOPs。从对比结果看,存在三类模型:第一类是精度高但速度慢或计算量大的模型(如DeepLabV3+、Mask2Former),它们不适用于实时场景;第二类是速度快但精度不足的模型(如FastSCNN、BiSeNetv2);第三类是精度和速度相对均衡的模型(如SegFormer-B0、MSCFNet)。SegTransConv-B在保持与第三类模型相当速度的同时,获得了更高的mIoU,并且在计算复杂度(参数量和FLOPs)上具有明显优势。更重要的是,在使用作者提出的综合评估指标fβ(β=0.5)进行排名时,SegTransConv-B在所有实时分割方法中获得了最高的分数,这证明其在精度、速度、轻量化三个维度的综合表现最优。

模型在CamVid数据集和自采数据集上的表现进一步证明了其泛化能力和实用性。在CamVid上,使用Cityscapes预训练权重后,模型取得了71.6%的mIoU和较高的推理速度,其fβ得分位居前列。在自采的校园环境图像上,SegTransConv-B模型对道路、建筑、天空、车辆等常见类别依然保持了准确的分割效果,初步验证了模型在实际复杂环境中的适用性。论文还提供了详细的分割效果可视化图,直观展示了模型相较于DFANet、MLFNet等对比方法在细节处理上的优势(如对电线杆、地形、自行车等物体的分割更准确),同时也指出了在部分重叠、颜色相似区域存在的误分割现象。

结论与价值

本研究的核心结论是,通过精心设计的Transformer-CNN串联编码器、集成自注意力的特征增强上采样解码器,并结合知识蒸馏训练策略,成功构建了SegTransConv这一高效的实时语义分割模型。该模型在标准自动驾驶数据集上实现了精度与速度的最佳平衡之一,其综合性能超越了众多现有的基于纯CNN、纯Transformer或混合结构的实时分割方法。

本研究的科学价值主要体现在以下几个方面:首先,提出了一种新颖且有效的Transformer-CNN混合架构范式。不同于简单的并行堆叠或将卷积操作嵌入注意力机制,本研究提出的“先Transformer后CNN”的串联式层级编码器,为如何有机结合两种架构的优势提供了一种新的、有理论依据(模拟人类认知)的设计思路。其次,设计的FE_Up模块创新性地将特征增强与上采样过程融合,为解码器设计提供了新的可能性。再者,提出的综合评估指标fβ具有重要的方法论意义。它打破了以往仅靠单一指标(如mIoU或FPS)评判模型的局限,为未来实时分割乃至更广泛的边缘计算模型研究提供了一个更全面、更合理的评估工具。

在应用价值上,SegTransConv模型因其高精度、高速度和轻量化的特点,非常适合于部署在计算资源受限的自动驾驶车辆嵌入式平台上,为车辆的环境感知系统提供实时、可靠的像素级场景理解能力,从而提升自动驾驶的安全性和智能水平。此外,模型的设计思路和评估指标也可迁移到其他需要实时图像理解的领域,如机器人导航、增强现实等。

研究亮点

本研究的亮点突出体现在以下几个方面: 1. 创新的混合架构:提出的“Transformer串联CNN”的编码器结构是其核心创新点,通过有序的特征提取流程,有效融合了全局上下文建模和局部特征提取的能力,在概念和实现上都具有新颖性。 2. 均衡卓越的性能:在Cityscapes等权威数据集上,SegTransConv在保持极高推理速度(68 FPS)的同时,取得了具有竞争力的分割精度(73.0% mIoU),且模型参数量和计算量控制得十分出色,在精度-速度-轻量化的“不可能三角”中找到了优秀的平衡点。 3. 系统性方法设计:研究不仅提出了新模型,还配套了针对性的训练策略(知识蒸馏)和评估体系(fβ指标),形成了一个从模型设计、训练优化到性能评估的完整、闭环的方法论,增强了研究的严谨性和实用性。 4. 实用的评估指标:所设计的fβ综合评估指标是该论文的一个重要贡献,它引导研究社区在追求高性能的同时,必须充分考虑模型的计算复杂度和部署可行性,对推动领域向更务实的方向发展具有积极意义。

这篇论文针对自动驾驶实时语义分割的核心挑战,提出了一套行之有效的解决方案,其模型设计巧妙,实验验证充分,结论可靠,兼具学术创新价值和实际应用前景,是一篇在该领域具有显著贡献的高质量研究工作。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com