用于RGB-D和RGB-T显著目标检测的PatNet：基于块到像素注意力感知的Transformer网络

分享自：
用于RGB-D和RGB-T显著目标检测的PatNet：基于块到像素注意力感知的Transformer网络

期刊:Knowledge-Based SystemsDOI:10.1016/j.knosys.2024.111597
本文介绍的研究工作由浙江理工大学计算机科学与技术学院的姜明峰、马建华、陈嘉彤、王亚明和方贤（通讯作者）共同完成，并发表于《Knowledge-Based Systems》期刊第291卷（2024年）。该研究旨在解决多模态显著目标检测任务中，如何有效融合不同模态（RGB-D和RGB-T）信息，同时保持显著目标完整性和精细边缘细节这一关键挑战。
学术背景 在计算机视觉领域，显著目标检测旨在识别图像中最吸引视觉注意力的部分，在目标跟踪、图像分割、图像压缩等任务中具有广泛应用。传统的单模态（RGB）方法在处理复杂场景时存在局限。因此，引入深度（Depth）或热成像（Thermal）等多模态信息成为重要研究方向，形成了RGB-D和RGB-T显著目标检测。深度图像能提供丰富的结构信息，有助于将前景目标与背景分离；而热成像图像对光照条件不敏感，能在极端环境（如低光照、烟雾）下稳定工作。近年来，基于视觉Transformer的模型在多模态SOD任务上取得了显著进展，超越了基于卷积神经网络的方法。然而，现有方法在生成显著图时，往往在目标完整性或边缘精细度上存在不足。这主要源于三个问题：1）不同模态（如RGB与深度图）间的细粒度信息存在不一致；2）Transformer架构中的图像块嵌入操作导致细节信息丢失；3）解码和上采样过程中过度依赖双线性插值，导致混叠效应累积。针对这些问题，本研究旨在提出一种新方法，以生成既完整又具有精细细节的显著图。
研究流程与方法 本研究提出了一种名为“Patch-to-Pixel Attention-aware Transformer Network”的新型网络架构，其核心设计思想是通过“决策-转换”策略，将全局的图像块级别决策映射到局部的像素级别输出，从而同时保证显著目标的完整性和边缘的精细度。整个研究流程包括网络架构设计、模块创新、实验验证与消融分析。
1. 网络整体架构 PATNet的架构包含一个编码器和一个两阶段解码器。编码器部分采用两个独立的P2T-base模型作为主干网络，分别用于提取RGB图像和另一模态（深度或热成像）图像的特征。P2T是一种金字塔池化Transformer，能够提取多尺度特征。编码器输出四个层次的特征，分别记为B1到B4，其中B1分辨率最高，B4最低。对于每个层次i，RGB特征和另一模态特征分别记为X_i^r和X_i^d。
解码过程分为两个阶段： * 第一阶段：块级阶段：此阶段专注于融合多模态、多尺度特征，并进行全局显著性决策。它主要包含两个创新的多头注意力模块：共享注意力融合模块和相邻建模融合模块。该阶段的输出经过一组卷积层后，生成三个不同尺度的“粗糙”显著图（P2, P3, P4），用于与下采样后的真实标签进行监督学习。 * 第二阶段：像素级阶段：此阶段负责将第一阶段得到的块级特征映射回像素空间，以恢复精细细节。核心是细粒度映射模块。该模块的输入是经过第一阶段处理后的最高分辨率特征图（F1’），输出是最终的全分辨率“精细”显著图（P1），用于与原始尺寸的真实标签进行监督学习。
2. 核心创新模块 本研究设计了三个核心模块，构成了方法论的创新点。
共享注意力融合模块：该模块用于在块级阶段融合同一尺度下的不同模态特征（X_i^r和X_i^d）。其创新在于使用一个共享的注意力矩阵来增强模态间的一致性和互补性。具体流程为：首先，对两个模态的特征分别进行层归一化和线性投影，得到查询向量Q（来自RGB）和键向量K、值向量V_d（来自另一模态）。然后，计算Q和K的乘积得到一个共享注意力矩阵M_s。对于RGB分支，使用M_s计算注意力权重；对于另一模态分支，则使用M_s的转置（M_s^T）作为注意力权重。这种设计强制两个分支关注相同的跨模态关系模式。最后，将两个分支输出的特征在通道维度上拼接，并通过一个相同的逆残差块前馈网络进行融合，生成该尺度的融合特征F_i。SAFM通过共享注意力机制和相同的FFN，有效促进了模态间的信息互补与一致性。
相邻建模融合模块：该模块用于在块级阶段融合不同尺度的特征，旨在减少上采样过程中的混叠效应。传统的上采样（如双线性插值）会引入模糊。AMFM采用了一种基于注意力的上采样方法。具体而言，将高分辨率特征Fi作为查询Q，将低分辨率特征F{i+1}作为键K和值V。通过计算Q和K的关联矩阵，得到一个非对称的注意力矩阵M。然后，通过M与V的矩阵乘法，将低分辨率特征“重建”为高分辨率特征，这个过程可以看作是根据高分辨率特征的查询，从低分辨率特征中自适应地聚合信息来完成上采样。此外，还引入了一个通过双线性插值得到的残差连接以保证模块性能的下限。重建后的特征再经过一个多头自注意力模块和IRB-FFN进行增强，最后与原始的高分辨率特征F_i通过哈达玛积（逐元素相乘）进行融合，得到输出F_i’。AMFM避免了先上采样再融合时产生的无意义通道，并能生成更高质量的高分辨率特征。
细粒度映射模块：该模块是连接块级阶段和像素级阶段的关键，负责将块表示的特征映射到像素空间。Transformer的块嵌入操作将局部像素压缩到通道维度，而FMM旨在逆转这一过程。首先，FMM对输入特征F_1’进行通道加权，通过一组可学习的参数γ来调整不同通道的重要性。然后，使用卷积层将通道数调整到目标值（如上采样倍数）。最后，通过像素重组操作，将多个通道的信息重新排列，直接生成高分辨率的单通道显著图。与简单的双线性插值相比，FMM能更有效地抑制混叠效应，生成细节更丰富的显著图。
3. 实验设计与分析 研究进行了大量实验以验证PATNet的有效性。
数据集：在RGB-D任务上，使用了六个公共数据集进行测试；在RGB-T任务上，使用了三个公共数据集。训练集和测试集的划分遵循了领域内主流工作的设置。
对比方法：与24种最先进的方法进行了比较，包括16种RGB-D方法和多种RGB-T方法，其中包含多种基于Transformer的模型。
评估指标：采用了SOD领域常用的五个定量指标：S-measure、最大F-measure、自适应E-measure、MAE以及精度-召回率曲线。
实施细节：输入图像尺寸统一为384x384。使用在ImageNet上预训练的P2T作为编码器。模型使用Adam优化器训练约200个周期。损失函数采用加权二元交叉熵损失和加权交并比损失之和，并对四个输出分支（三个粗糙分支和一个精细分支）进行监督。
主要结果 定量结果：在六个RGB-D数据集和三个RGB-T数据集上，PATNet在绝大多数指标上均超越了所有对比方法。特别是在衡量像素级误差的MAE指标上，PATNet取得了显著提升，这证明了其在减少错误预测和生成更精确显著图方面的优势。PR曲线也显示，PATNet的曲线在大部分区间位于其他方法之上。此外，论文还指出，尽管PATNet引入了注意力模块，但其参数量和计算量仍处于合理范围，甚至低于部分性能相近的模型，这得益于其采用了较少的特征通道数并通过多头机制高效利用了通道信息。
定性结果：通过视觉对比可以清晰地看到PATNet的优势。在细粒度场景（如车轮辐条、昆虫触角、花瓣边缘）中，PATNet生成的显著图边缘更清晰、细节更完整。在低质量深度图场景中，PATNet能更好地处理深度信息噪声，保持目标的完整轮廓。在多目标场景中，PATNet能够更准确地识别并分割出所有显著目标，并能将人物与阴影等干扰物区分开来。在RGB-T任务中，对于存在热成像干扰（如热源与目标不匹配）或RGB图像质量较差的场景，PATNet也能通过有效的模态融合，准确分割出显著目标。
消融实验：研究通过系统的消融实验验证了各个模块的有效性。 1. 模块有效性：在基线模型（P2T编码器+FPN解码器）上逐步添加SAFM、AMFM和FMM，每个模块的加入都带来了性能提升，同时使用所有模块时达到最佳性能。 2. 注意力操作对比：将SAFM中的共享注意力替换为独立的交叉注意力或单分支交叉注意力，或将AMFM中的跨尺度注意力替换为自注意力或带插值的交叉注意力，均会导致性能下降，证明了所提注意力机制设计的优越性。 3. 微观设计分析：实验表明，在SAFM和AMFM中使用多头机制、在CBP中使用PReLU激活函数、在AMFM中使用哈达玛积进行特征融合，都比其替代方案（如单头、ReLU、求和）效果更好。 4. 可视化分析：通过可视化AMFM中间特征图，表明其基于关系矩阵的上采样方法比双线性插值能保留更多细节信息。对比FMM输出与双线性插值输出，显示FMM生成的显著图在细长区域锯齿更少、边缘置信度更高。
失败案例分析：论文也坦诚地分析了PATNet的局限性。主要失败案例集中在两种场景：1）中空结构物体：模型可能更关注将其内部与背景分离，而非将其作为一个整体分割出来。2）目标严重重叠场景：模型可能错误地将重叠在显著目标上的非显著物体也判定为显著部分。作者指出，未来可通过引入提示机制、后处理或增加相关训练数据来改进。
结论与价值 本研究提出PATNet，成功解决了多模态显著目标检测中目标完整性保持与细粒度细节恢复的难题。其主要贡献在于：1）首次在解码器中引入“块级”与“像素级”两阶段处理策略，通过决策转换实现从全局到局部的精细预测。2）设计了SAFM模块，通过共享注意力矩阵和相同FFN有效增强了多模态特征的一致性与互补性。3）设计了AMFM模块，利用跨尺度注意力进行特征重建上采样，减少了混叠效应。4）设计了FMM模块，建立了从特征块到输出像素的直接映射，提升了细节还原能力。大量实验证明，PATNet在RGB-D和RGB-T SOD任务上均达到了最先进的性能。
研究亮点 1. 方法创新性：提出了“决策-转换”的两阶段解码范式，以及SAFM、AMFM、FMM三个核心创新模块，从特征融合、上采样、像素重建三个层面系统性地提升了模型性能。 2. 性能卓越性：在多达九个公开数据集上全面超越了24种前沿方法，尤其在衡量细节的MAE指标上提升显著，并通过丰富的可视化结果证明了其生成显著图的精细度。 3. 问题针对性：研究直指当前Transformer-based多模态SOD方法的三大痛点（模态不一致、块嵌入丢失细节、插值导致混叠），并给出了有效的解决方案。 4. 分析系统性：除了主实验，还进行了详尽的消融实验、模块对比实验和可视化分析，深入验证了各个组件和设计选择的有效性，并客观分析了模型的失败案例，体现了研究的严谨性。
其他有价值内容 论文提供了完整的实现细节，包括网络结构参数（如多头注意力头数设置）、损失函数、训练超参数等，具有很好的可复现性。模型源代码已公开在GitHub上，促进了学术共享和技术传播。此外，论文在“未来工作”部分指出了模型在计算成本优化、FMM映射方式改进以及处理特殊场景（中空、重叠）方面的潜在研究方向，为后续工作提供了思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问