融合注意力引导多尺度特征的改进YOLO11海面船舶检测

本文为您介绍一篇由张哲（福建农林大学机电工程学院）、林昌*（莆田学院智能制造学院）、康新（莆田学院智能制造学院）共同完成的研究论文。该研究于《激光与光电子学进展》期刊网络首发，首发日期为2026年4月10日（投稿日期2026年1月16日）。论文题目为《融合注意力引导多尺度特征的改进YOLO11海面船舶检测》。

一、研究背景与目标

本研究的科学领域属于计算机视觉，具体聚焦于目标检测技术在海洋感知场景中的应用。随着智能海洋监测与自主航行技术的发展，高精度、实时的海面船舶检测成为海事监管、避碰等系统的关键。尽管以YOLO系列为代表的单阶段检测器在实时性方面表现出色，但其设计主要面向陆地自然场景。在实际的海洋电光（Electro-Optical， EO）成像环境下，船舶检测面临独特挑战：1）成像退化：雾霾散射、光照变化导致图像对比度下降、目标特征模糊；2）背景干扰：复杂的海天边界和波浪反射形成强干扰；3）目标特性：船舶目标常呈现细长几何结构，其边界框长宽比分布高度不平衡。这些因素共同导致现有通用检测模型在海洋场景下定位精度下降、鲁棒性不足。

因此，本研究旨在解决上述问题，目标是提出一种适用于复杂海洋电光成像环境的轻量级、高鲁棒性实时船舶目标检测框架。该框架在保证实时推理能力的同时，需有效应对图像退化、背景干扰以及目标几何特性带来的挑战。

二、研究详细流程与方法

本研究以轻量化的YOLO11n模型为基线架构，针对性地引入了三项核心改进，构成了完整的工作流程。研究使用的数据集是一个统一构建的真实海洋电光图像数据集，整合了SeaShips、Singapore Maritime Dataset (SMD)、MCShips以及Roboflow Universe平台的部分数据，总计5000张图像，并按7:2:1划分为训练集、验证集和测试集。数据集包含浮标(buoy)、军舰(navalvessels)、帆船(sail boat)等七类目标，其标注经过人工核查与格式统一，并采用了旋转、噪声注入等数据增强策略以提升模型鲁棒性。所有实验在统一环境下进行，输入分辨率为640×640，使用SGD优化器训练100个周期（epoch）。

流程一：引入动态选择注意力（Dynamic Selection Attention, DSA）模块
此流程旨在增强模型在复杂背景下提取判别性特征的能力。研究者设计了一个全新的DSA模块，用以替换基线模型中的部分标准卷积模块（C3k2）。DSA模块并非对特征进行简单的加权，而是构建了一个结构化的自适应特征选择流程，包含三个顺序阶段：

多尺度通道依赖建模：并行使用三个不同卷积核尺寸（3, 5, 7）的Efficient Channel Attention (ECA)分支，提取不同感受野下的通道响应。创新之处在于，它通过一个基于Softmax的“竞争式归一化”机制，自适应地计算各分支的权重，让网络自动选择对当前特征最具判别力的感受野尺度，避免了静态多分支融合可能带来的优化冲突。
组内竞争式路由机制：将经过多尺度融合后的通道特征，通过1×1分组卷积映射为K个“专家组”响应。随后在组维度上再次应用带温度参数（τ=0.2）的Softmax操作，使每个通道能动态地选择最合适的专家表示。这缓解了特征冗余，实现了更精细的上下文自适应。
共享空间滤波机制：所有专家组的输出共享同一个空间注意力模块（而非每个分支独立使用），以增强目标区域的空间一致性并抑制背景干扰。这保证了空间建模的一致性并避免了冗余计算。
最终，各专家分支的输出被聚合，形成增强后的特征。DSA模块被集成到模型的主干（Backbone）和颈部（Neck）网络中，以样本自适应的方式强化关键特征并抑制噪声。

流程二：设计坐标注意力引导的多尺度特征融合（Coordinate Attention-guided Multi-Scale Fusion, CAMSF）模块
此流程旨在提升模型对船舶细长结构和海天边界方向性分布的建模能力。研究者对YOLO中常用的空间金字塔快速池化（SPPF）模块进行了改进。标准的SPPF通过多个不同尺寸的最大池化层聚合多尺度上下文信息，但各分支的融合是静态的（通常为拼接后卷积）。
本研究的CAMSF模块在SPPF的基础上，引入了一种方向感知、样本自适应的分支加权融合机制。具体步骤为：

生成多尺度分支：对输入特征进行通道压缩后，通过膨胀率分别为1, 3, 5的卷积层，生成三个具有不同感受野的并行特征分支。
提取方向感知描述符：对每个分支的特征图独立应用坐标注意力（Coordinate Attention）机制。该机制分别沿水平和垂直方向进行全局池化，生成能够捕获长程依赖关系且具有方向敏感性的特征描述符。
自适应分支加权：基于每个分支的方向性描述符，计算一个代表该分支重要性的得分。然后，通过Softmax函数在所有分支间进行归一化，得到各分支的自适应权重。这一过程使得融合权重依赖于图像内容，能够强化与当前场景（如水平的海天边界）更相关的尺度特征。
加权融合：使用得到的权重对各个分支的特征进行加权求和，实现方向感知的多尺度特征聚合。
CAMSF模块被嵌入到模型的SPPF结构中，使模型能够更有效地聚合与船舶目标和海洋场景几何特性相符的上下文信息。

流程三：提出改进的边界框回归损失函数
此流程旨在提升在成像退化条件下对细长船舶目标的定位稳定性和几何一致性。研究者选用Wise-IoU (WIoU)作为基线回归损失函数，因其能根据预测框的质量动态调整梯度权重，抑制低质量样本的干扰。
此外，针对船舶目标长宽比分布极不均衡的特点，本研究创新性地引入了一项基于数据统计的长宽比正则化项。具体做法是：在训练集上统计所有船舶标注框的长宽比，根据第95和99百分位数，确定合理的上下界（r_min=0.40， r_max=3.20）。对于每个预测框，计算其长宽比r_i，并通过一个平滑的Softplus函数，对超出合理区间的预测施加惩罚。该正则化项（L_ratio）与WIoU损失（L_wiou）、分类损失（L_cls）和分布式焦点损失（L_dfl）共同构成最终的复合损失函数（L_det = L_wiou + λ_ratio * L_ratio + L_cls + L_dfl，其中λ_ratio=0.1）。这种“软约束”能在不强制固定形状的前提下，将预测框的长宽比引导至符合真实数据统计规律的合理范围内，从而提升回归稳定性。

三、主要研究结果与分析

研究通过系统的对比实验和消融实验验证了所提出方法的有效性。主要评价指标包括准确率（Precision）、召回率（Recall）、以及平均精度均值（mAP），其中mAP@0.5和更严格的mAP@0.5:0.95被用作综合性能评估标准。

结果一：与主流模型的全面对比
在统一构建的数据集上，本文方法（标记为“Ours”）与YOLOv5n、YOLOv8n、YOLO11n等通用轻量模型，以及YOLOSeaShip、ELSD-YOLO等海洋专用检测模型进行了对比。结果显示：

精度全面领先：本文方法在Precision（0.8737）、Recall（0.7279）、mAP@0.5（0.7869）和mAP@0.5:0.95（0.5557）四项核心指标上均取得了最优性能。相较于基线YOLO11n，mAP@0.5和mAP@0.5:0.95分别提升了约3.5和2.8个百分点。
效率权衡良好：本文方法的计算复杂度（GFLOPs为9.71）和参数量（Params为5.904M）虽高于YOLO11n，但仍低于YOLOv6n、YOLOv7-tiny等模型，且推理速度达到103.57 FPS（在RTX 4060 GPU上），保持了良好的实时性，满足边缘部署需求。

结果二：细粒度类别性能分析
对七类船舶目标的检测精度（AP@0.5）进行分析发现，本文方法在几乎所有类别上均优于基线模型，尤其是在高速艇（speed boat） 和军舰（navalvessels） 等具有挑战性的类别上提升显著。例如，speed boat的AP从基线模型的0.411提升至0.445。这验证了DSA和CAMSF模块在增强对小尺度、高速运动或细长结构目标的判别性特征建模方面的有效性。

结果三：DSA模块组件的消融实验
通过逐一移除DSA模块中的空间注意力、分支Softmax融合、组内竞争机制和多尺度ECA通道建模等组件进行实验，发现：

移除多尺度ECA或空间注意力模块会导致性能（尤其是mAP@0.5:0.95）出现最显著的下降（分别下降约1.93和1.0个百分点），证明它们是提升特征判别性和抑制背景干扰的核心。
移除分支Softmax融合或组内竞争机制也会导致性能稳定下降，说明它们通过促进自适应特征选择，对整体性能有辅助优化作用。
完整DSA模型在所有指标上达到最优，证明了其内部组件的协同有效性。

结果四：三大核心改进的消融实验
在YOLO11n基线模型上逐步添加改进模块的实验结果表明：

单独引入DSA能大幅提升Precision，但Recall略有下降，说明其强化了判别性，但可能抑制了部分弱目标。
单独引入CAMSF能均衡地提升Precision和Recall，说明其通过多尺度上下文聚合改善了目标完整性检测。
同时引入DSA+CAMSF在Recall上获得进一步增益，说明二者具有互补性。
最终集成DSA+CAMSF+WIoU+AR（长宽比正则化） 的完整模型取得了最佳的综合性能，证明了三项改进各自的价值及其组合的优越性。

结果五：输入尺度鲁棒性分析
在480×480至800×800的不同输入分辨率下测试完整模型，发现在640×640及以下分辨率时，模型性能保持稳定，mAP@0.5维持在0.78左右，且mAP@0.5:0.95随分辨率提升呈上升趋势。在800×800分辨率下性能有所下降，表明过高分辨率可能引入冗余噪声。640×640被证明是精度与效率的最佳平衡点。

四、研究结论与价值

本研究提出并验证了一种面向复杂海洋电光成像环境的改进型轻量级船舶检测框架。通过引入动态选择注意力（DSA）模块、坐标注意力引导的多尺度特征融合（CAMSF）模块以及结合长宽比正则化的WIoU损失函数，该框架显著提升了在雾霾、光照变化、海天边界干扰等恶劣条件下对船舶目标，尤其是细长、小尺度目标的检测精度和定位鲁棒性。实验证明，该方法在公开数据集构建的测试集上取得了优于当前主流轻量模型和专用海洋检测模型的性能，同时保持了超过100 FPS的实时推理速度与适中的计算复杂度。

科学价值：本研究为解决海洋特定场景下的目标检测难题提供了新的思路和技术路径。DSA模块将特征增强建模为结构化的竞争选择过程，CAMSF模块实现了方向感知的自适应多尺度融合，这些设计对解决类似具有强方向性、多尺度且背景复杂的视觉感知任务具有启发意义。改进的回归损失函数为处理几何先验显著的目标提供了可借鉴的方案。

应用价值：该框架具有良好的工程实用性，其轻量化和实时性的特点使其适合部署于船载、岸基或无人机等资源受限的海洋自动化监测平台，为智能海事监管、自主船舶导航、碰撞预警等实际应用提供了可靠、高效的感知组件。

五、研究亮点

创新性模块设计：提出了全新的动态选择注意力（DSA）模块，通过多尺度通道竞争、组内路由竞争和共享空间滤波的级联设计，实现了样本自适应的特征选择与增强。
方向感知的特征融合：设计了坐标注意力引导的多尺度特征融合（CAMSF）模块，将方向性上下文信息引入SPPF结构，实现了对海洋场景和船舶目标几何特性的更精准建模。
数据驱动的几何约束：在损失函数中创新性地引入了基于训练数据统计的长宽比正则化项，以“软约束”方式提升了对细长船舶目标边界框回归的稳定性，这是一种将数据先验知识嵌入模型优化的有效实践。
系统性解决方案：研究并非单一技术的简单堆砌，而是从特征增强（DSA）、上下文聚合（CAMSF）到回归优化（损失函数）三个层面系统性地应对海洋船舶检测的核心挑战，并通过充分的消融实验验证了各组成部分的有效性与协同作用。
优异的性能-效率平衡：在显著提升检测精度（特别是在挑战性类别上）的同时，模型保持了轻量化特性和高实时帧率，体现了面向实际工程应用的优化思路。

文献信息

融合注意力引导多尺度特征的改进YOLO11海面船舶检测