弱异构感知的三维声纳点云目标检测网络

分享自：

弱异构感知的三维声纳点云目标检测网络

船舶与海洋工程

声学

期刊:ieee transactions on circuits and systems for video technologyDOI:10.1109/tcsvt.2025.3569293

【点击此处】阅读全文、收藏及针对性提问

《IEEE Transactions on Circuits and Systems for Video Technology》2025年10月刊载了题为《SonarPoint: Weak-Heterogeneity Awareness Object Detection Network for 3D Sonar Point Cloud》的研究论文（DOI: 10.1109/TCSVT.2025.3569293），由浙江工业大学计算机科学与技术学院的赵东东（Dongdong Zhao）、蔡天成（Tiancheng Cai）、陈鹏（Peng Chen，通讯作者）等团队联合浙江大学等机构完成。该研究针对水下三维声呐点云的弱异构性目标检测难题，提出了一种创新性深度学习框架。以下为学术报告：
一、研究背景与目标水下目标检测主要依赖光学成像与声呐技术，其中基于稀疏阵列的三维声呐因穿透性强、探测距离远，在深海探测和浑浊水域中具有不可替代性。然而，三维声呐点云存在三大挑战：
 1. 数据质量缺陷：高噪声、低分辨率及遮挡导致点云弱异构性（Weak-Heterogeneity），即目标与环境间特征差异不显著；
 2. 算法适应性不足：现有激光雷达（LiDAR）点云检测方法直接迁移至声呐数据时，因介质折射率、场景分布（水下全三维vs地面2.5D）差异而失效；
 3. 数据集缺失：缺乏开源三维声呐数据集，传统方法依赖高质量数据，难以应对实际复杂场景。
研究目标为开发一种能感知弱异构性的三维声呐目标检测网络，解决动态目标形态多变、噪声干扰及特征模糊等问题。
二、方法学与实验流程1. 模糊解耦模块（Fuzzy Decoupling Module）创新点：区别于传统前景-背景分割，通过模糊数学（Fuzzy Mathematics）实现目标与环境的并行特征提取。
 - 动态平衡策略：基于Cauchy分布设计隶属度函数（式3），将原始点云γ解耦为目标部分γ0与环境部分γ1，通过强度方差阈值（式4-6）防止边界模糊；
 - 归一化处理：对声呐回波强度r进行归一化（式1），消除设备差异带来的类别偏差；
 - 体素多特征编码：通过VFE层（Voxel Feature Encoding）提取点级特征（图6），融合局部与全局信息。
2. 多跳视觉Mamba架构（Multi-hop Visual Mamba）解决痛点：传统CNN难以建模长程依赖，Transformer因计算复杂度高不适用于小样本声呐数据。
 - 状态空间模型（SSM）改进：引入多跳连接（式7），增强对历史状态的记忆能力，提升噪声环境下的特征连贯性；
 - S6块设计（算法1）：通过线性变换与指数映射动态调整参数，实现选择性信息过滤。
3. 马尔可夫多阶段优化（Markov Multi-feature Refinement）二阶段精修：
 - 一阶段：基于高斯热图（Gaussian Heatmap）的Anchor-free方法（CenterPoint改进版）生成初始检测框；
 - 二阶段：利用马尔可夫链（Markov Chain）预测点云状态转移概率（式17-19），通过非线性插值补充遮挡目标的边界信息，优于传统线性插值。
4. 损失函数与训练分类损失：Focal Loss（式9）缓解样本不平衡，权重参数α=2、β=4；
 
回归损失：Smooth L1（式15）优化边界框尺寸；
 
数据增强：包括稀疏阵列波束成形（Beamforming）、全局旋转/缩放、目标复制等6种策略（图8-9）。
 
三、实验结果与结论1. 数据集与基线对比自建数据集：千岛湖采集7481组样本，含蛙人、气泡、链条等5类目标（图9），测试集7518样本；
 
性能对比（表I）：在IoU=0.8时，SonarPoint平均精度（mAP）较VoxelR-CNN等提升11.4%，蛙人检测提升16.75%（76.12% vs 59.59%），梯子检测提升26.1%（75.53% vs 49.43%）。
 
2. 关键发现弱异构性感知：模糊解耦使气泡等噪声信息转化为辅助特征，蛙人检测准确率显著提高；
 
效率平衡：帧率22.3 FPS（表II），参数量可控，适用于实时系统；
 
泛化性验证：通过KITTI数据集预训练增强模型迁移能力。
 
四、科学价值与应用前景理论贡献：
 首次提出“弱异构性”量化定义，为声呐图像分析提供新范式；
 
融合模糊数学与状态空间模型，开辟点云处理新路径。
 
工程意义：
 配套开发三维声呐成像系统（图10-11），支持水下机器人导航、深海资源勘探；
 
开源标注数据集推动领域研究。
 
五、研究亮点方法论创新：模糊动态平衡策略与多跳Mamba架构均为声呐检测领域首创；
 
跨学科融合：结合信号处理（波束成形）、概率模型（马尔可夫链）与深度学习；
 
全栈解决方案：从硬件采集（FPGA加速）、算法设计到湖试验证形成闭环。
 
六、局限与展望当前数据依赖单一设备采集，未来需扩展多模态声呐（如合成孔径声呐）与视频时序分析，进一步模拟人类观察模式。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问