关于HAFNet的学术研究报告
本文旨在介绍一篇发表于IEEE Transactions on Geoscience and Remote Sensing第63卷(2025年)上的学术研究,论文标题为“HAFNet: Hierarchical Attention Fusion Network for Infrared Small Target Detection”。该研究由Yingmei Zhang、Wangtao Bao、Yong Yang、Weiguo Wan、Qin Xiao以及Xueting Zou共同完成。作者团队分别来自江西财经大学软件与物联网工程学院、天津工业大学计算机科学与技术学院以及中国广核集团贝谷科技有限公司。论文于2025年9月9日正式在线发表。
一、 学术背景与研究动机
本研究聚焦于计算机视觉与遥感图像处理领域内一个重要且具有挑战性的任务——红外弱小目标检测。红外弱小目标检测旨在从红外图像中识别并定位那些在空间上尺寸极小、信杂比低,且通常嵌入动态复杂背景中的目标。这项技术在早期预警、海上搜救等军民应用领域扮演着关键角色。
相较于可见光图像中的通用目标检测,红外弱小目标检测面临诸多独特挑战,包括:红外图像分辨率较低;目标与背景的像素占比相差悬殊;以及来自海面、云层等自然背景的严重干扰。这些问题使得红外弱小目标检测成为一个高度不确定且对噪声敏感的问题。早期的传统方法主要依赖于手工设计的特征,例如灰度差、局部对比度增强、纹理提取等,包括基于滤波器、模拟人类视觉系统以及低秩表示的方法。尽管这些方法取得了一定进展,但在复杂背景或目标信噪比极低的情况下,通常表现出较高的误报率和漏检率,且难以适应动态多变的环境。
深度学习的快速发展为此任务提供了新的解决方案,特别是U-Net架构因其强大的特征提取和多尺度特征融合能力而备受关注。然而,现有基于U-Net的方法仍存在两大关键局限:首先,许多方法的特征提取模块依赖于为可见光图像设计的分类网络骨干,这些骨干网络由于光谱和分布差异,在红外场景中泛化能力不足,导致特征表示次优。其次,U-Net中传统的跳跃连接仅在同一分辨率层级之间直接传递特征,忽略了低级特征(富含空间细节但易受噪声干扰)与高级特征(语义抽象但缺乏细粒度结构信息)之间的语义鸿沟,这种异构特征的直接融合往往是低效的,限制了检测精度。
为应对上述挑战,本研究提出了一种新颖的基于U-Net架构的分层注意力融合网络,即HAFNet。其核心目标是同时从特征提取骨干和跳跃连接两个方面改进原始U-Net架构,以增强网络对复杂背景下红外弱小目标的感知、分离和重建能力。
二、 研究方法与工作流程
HAFNet的整体架构是一个分层编码器-解码器网络,包含三个核心模块:双分支语义感知模块、分层特征融合编码器以及分层特征融合解码器。整个研究工作流程大致分为网络架构设计、模块创新、实验验证与消融分析四个主要阶段。
1. 网络整体架构设计 给定输入红外图像,编码器阶段包含五组DSPM和最大池化层,用于逐级提取编码特征。与经典U-Net不同,HAFNet在编码器阶段引入了额外的分层编码分支。HFFE模块融合相邻层级的编码特征,形成分层表示,并通过两种新型的跳跃连接——分层注意力引导跳跃连接和编码特征注入跳跃连接——传递给解码器端的HFFD模块。HFFD模块则捕获多尺度上下文信息,生成分层解码特征,这些特征再与对应层级的编码器特征通过传统跳跃连接结合,输入DSPM进行细化,最终由检测头输出预测。此外,网络采用了深度监督策略,对每个解码层的输出施加监督,以优化分割结果并最小化误报。
2. 核心模块的开发与创新 A. 双分支语义感知模块: 该模块作为特征提取骨干,旨在解决传统卷积感受野固定、难以有效区分弱小目标与复杂背景的问题。DSPM包含两个核心部分:(1) 双分支特征提取:一个分支使用标准卷积保留局部空间一致性;另一个分支使用不同空洞率的空洞卷积来扩展感受野,捕获多尺度上下文信息。这种设计使网络能同时把握局部细节和全局语境。(2) 双注意力机制:在特征融合后,依次应用空间注意力模块和通道注意力模块。空间注意力帮助网络聚焦目标相关的空间区域,通道注意力则重校准不同特征通道的重要性。通过整合多尺度特征提取与注意力引导的细化,DSPM显著增强了网络对弱小目标的特征表示能力和背景噪声的抑制能力。
B. 分层特征融合编码器: 为解决传统编码器各级特征统计特性不同(低级特征细节丰富但嘈杂,高级特征语义抽象但细节丢失)导致的融合挑战,HFFE模块被设计用于实现跨层级的特征融合。其工作流程为:首先,将当前层特征与经过上采样的高层特征分别送入空间注意力模块进行初步提炼。接着,模块生成空间权重矩阵,通过元素乘法对特征进行自适应重校准,实现一种“交叉注意力”机制,即利用高层特征的权重来强调低层特征中的潜在目标区域,反之亦然。然后,引入坐标注意力机制,它能在保留关键位置信息的同时编码通道关系,生成融合权重。最后,所有处理后的特征被整合,输出层次化的编码特征。HFFE有效利用了编码器多层级特征的差异性,增强了特征聚合与噪声抑制。
C. 分层特征融合解码器: 为克服传统跳跃连接仅融合同尺度特征的局限,HFFD模块被设计来最大化利用来自编码器、HFFE以及上一层解码器的多源信息。其输入包括:提供细粒度细节的编码器特征、提供全局语义的分层编码特征、以及提供空间上下文的上采样解码器特征。HFFD首先将编码器特征与上一层解码器特征拼接,并通过一系列1x1卷积进行特征分解,得到多个特征图。随后,使用不同空洞率的卷积对这些特征图进行多尺度增强,以捕获局部结构和长程依赖。增强后的多尺度特征被级联并与初始分解特征相加,再与来自HFFE的分层编码特征融合,最终生成层次化解码特征。HFFD通过结构化融合过程,协同整合了互补的特征表示,显著提升了目标重建的保真度。
3. 实验设计与评估流程 为全面验证HAFNet的有效性,研究团队在三个广泛使用的公开数据集上进行了大量实验:NUAA-SIRST、IRSTD-1K和NUDT-SIRST。此外,为了评估方法在噪声环境下的鲁棒性,还在通过向NUAA-SIRST注入不同强度高斯白噪声生成的NoisySIRST数据集上进行了对比实验。所有数据均按原始论文设定划分为训练集和测试集,并进行了标准化、随机裁剪、旋转翻转等预处理。
实验设置方面,采用AdamW优化器,使用余弦退火策略调整学习率。模型权重采用Kaiming初始化。针对不同数据集的数据分布和分辨率差异,对批次大小和输入尺寸等超参数进行了微调。评估指标采用交并比、归一化交并比、检测概率、误报率、F1分数以及受试者工作特征曲线,以全面衡量检测性能。
研究将HAFNet与13种现有方法进行了对比,包括6种传统方法和7种深度学习方法。为确保公平比较,所有深度学习方法均使用与HAFNet相同的训练基准进行复现和重训练。除了定量对比,还提供了丰富的定性结果可视化、3D可视化以及基于梯度加权类激活映射的激活图可视化,以直观展示模型的优越性。
4. 系统性的消融分析流程 为了解每个核心模块的贡献,研究进行了系统的消融实验。以原始U-Net为基线,逐步添加深度监督、DSPM、HFFE和HFFD模块,分析它们对性能的影响。此外,还对DSPM的内部组件、HFFE的内部组件、HFFD的内部组件进行了详细的拆解分析。为了验证DSPM相比其他特征提取模块的优势,还构建了使用其他网络中模块(如密集嵌套交互模块、ResNet残差块)替换DSPM的变体模型进行对比。最后,还分析了网络深度对性能的影响,探索了从3层到6层不同深度下HAFNet的表现。
三、 主要研究结果
1. 定量性能对比结果 在三个基准数据集上的综合对比实验表明,HAFNet在所有评估指标上均取得了最佳性能。具体而言,在NUAA-SIRST和NUDT-SIRST数据集上,HAFNet的交并比值分别比第二名方法高出2.62%和3.52%。在IRSTD-1K数据集上,其归一化交并比值比第二名高出2.87%。这充分验证了HAFNet在提升目标定位精度、结构完整性以及抑制背景干扰方面的有效性。ROC曲线分析进一步显示,HAFNet的曲线始终位于对比方法之上,表明其在检测概率与误报率之间取得了更好的平衡。在NoisySIRST数据集上的实验结果表明,HAFNet在不同噪声水平下均表现出稳定且优越的性能,尤其是在中高信噪比条件下,其鲁棒性显著。
2. 定性可视化结果 可视化对比清晰地展示了HAFNet的优势。与传统方法相比,深度学习方法普遍能大幅减少误报。而在深度学习方法中,HAFNet在目标召回率和形状重建保真度方面均表现最佳。例如,在部分挑战性场景中,其他先进方法出现了漏检,而HAFNet和UIUNet成功检测到了所有目标,但HAFNet预测的目标形状更接近真实标注,证明了HFFD模块在保持目标形态方面的有效性。3D可视化与Grad-CAM激活图进一步证实,HAFNet能够更精确地聚焦于真实目标区域,其激活响应更为集中和准确,而其他方法的激活则较为分散,导致检测不完整或定位错误。
3. 消融分析结果 消融实验数据系统性地验证了各个模块的贡献。逐步添加DSPM、HFFE和HFFD模块,模型的交并比、归一化交并比和F1分数均得到持续提升。其中,DSPM带来的性能提升最为显著,证明了其增强特征提取能力的核心作用。对模块内部组件的分析表明,移除空间注意力、通道注意力或任何一种卷积分支都会导致性能下降,证实了双分支结构与双注意力机制协同工作的必要性。对HFFE和HFFD内部组件的分析也确认了坐标注意力、特征重校准、特征分解等关键设计的有效性。特征提取模块对比实验显示,使用DSPM的HAFNet性能优于使用其他模块的变体,凸显了DSPM设计的优越性。网络深度实验表明,五层结构在HAFNet中取得了最佳性能,过深(六层)会导致性能下降,这为模型复杂度与精度的平衡提供了依据。
4. 模型复杂度分析结果 与主流方法的对比显示,HAFNet在精度和效率之间取得了良好平衡。虽然其参数数量和计算量高于MSHNet、DNA-Net等轻量模型,但显著低于UIUNet等高性能但复杂的模型。对于256x256的输入,HAFNet在GPU上的推理延迟约为24.77毫秒,结合其卓越的检测性能,表明其具备在实际场景中部署的潜力。
四、 研究结论与意义
本研究成功提出并验证了HAFNet,一种用于红外弱小目标检测的新型分层注意力融合网络。该网络从特征提取骨干和跳跃连接两个维度对原始U-Net架构进行了双重改进。DSPM通过结合标准与空洞卷积以及空间/通道注意力,显著提升了网络的特征提取与目标-背景分离能力。HFFE和HFFD模块构建的分层跳跃连接,高效地促进了编码器与解码器间的多层次、多尺度语义特征融合,极大增强了解码器的目标恢复能力。
在多个公开数据集上的广泛实验证明,HAFNet的性能优于现有的先进方法,达到了最先进的检测水平。这项工作的科学价值在于,它针对红外弱小目标检测中的核心挑战——特征表示不足和跨层级语义鸿沟——提出了系统性的神经网络架构解决方案,丰富了该领域的模型设计思路。其应用价值则体现在为早期预警、监视等实际任务提供了更可靠、更鲁棒的目标检测工具。
五、 研究亮点与创新
本研究的亮点与创新主要体现在以下几个方面: 1. 整体架构创新: 提出HAFNet,一种从特征提取和特征融合两方面协同优化的端到端检测网络,系统性地解决了现有U-Net变体的主要局限。 2. DSPM模块创新: 设计了一种集成双分支(标准+空洞卷积)特征提取与双注意力机制的语义感知模块,有效平衡了局部细节与全局上下文,增强了弱小目标的特征判别力。 3. 分层融合机制创新: 创造性地引入了HFFE和HFFD模块,构建了层次化的注意力引导跳跃连接,实现了跨不同尺度和语义层级的灵活、高效特征融合,有效缓解了语义差异问题。 4. 全面深入的验证: 不仅在多个标准数据集上进行了详尽的定量与定性对比,证明了其SOTA性能,还通过系统性的消融分析、模块内部组件分析、特征提取模块对比、网络深度分析等,严谨地验证了每个设计选择的合理性与有效性。 5. 关注实际鲁棒性: 在含噪声数据集上进行测试,验证了模型在恶劣条件下的稳定性能,增强了其实用价值。
六、 其他有价值的信息
论文最后也坦率地指出了HAFNet的一个局限性:双分支特征提取和分层融合模块引入了相对较多的参数和计算复杂度,可能会在一定程度上影响其在资源受限平台上的实时部署。作者表示,未来的工作将侧重于轻量化模型设计和推理优化,以提升HAFNet在实际应用中的部署能力。这种对工作局限性的认识和对未来方向的展望,体现了研究的严谨性和延续性。此外,论文已公开代码,有利于学术界的复现、验证与进一步发展。