分享自:

基于图注意力的多模态融合网络用于高光谱图像和激光雷达数据的联合分类

期刊:expert systems with applicationsDOI:10.1016/j.eswa.2024.123587

基于图注意力多模态融合网络的高光谱图像与激光雷达数据联合分类研究

作者及发表信息

本研究由Jianghui Cai、Min Zhang、Haifeng Yang(通讯作者)等来自太原科技大学(Taiyuan University of Science and Technology, TYUST)计算机科学与技术学院、中北大学(North University of China, NUC)数据科学与技术学院以及山西省大数据分析与并行计算重点实验室的研究团队完成。研究成果发表于《Expert Systems with Applications》期刊2024年第249卷,文章编号123587。

学术背景

本研究属于遥感图像处理与多源数据融合领域。高光谱图像(Hyperspectral Image, HSI)包含数百个光谱波段,能提供详细的光谱信息,但在城乡区域常面临”同谱异物”问题;而激光雷达(Light Detection and Ranging, LiDAR)数据能记录物体高程信息,与HSI形成互补。传统基于CNN的融合方法存在两大局限:(1)忽略不同数据源间的相关性与互补性,难以建模光谱信息的长距离依赖关系;(2)简单拼接多源特征嵌入会忽略深层语义关联。为此,研究团队提出新型图注意力多模态融合网络(Graph-Attention based Multimodal Fusion Network, GAMF),旨在解决上述问题。

研究方法与流程

1. HSI-LiDAR特征提取模块

研究采用三分支CNN架构(HSI_2S、HSI_OIE和LiDAR分支)作为特征提取主干: - HSI_2S分支:通过3个Conv3D和2个Conv2D层提取空间-光谱特征,采用GELU激活函数 - HSI_OIE分支:类似残差结构,保留原始HSI特征,使用与HSI_2S共享参数的Conv2D层 - LiDAR分支:多个Conv2D层处理空间-高程特征,最终层与HSI分支参数共享

创新性地采用高斯加权标记化(Gaussian Tokenization)进行特征转换,通过可学习权重Wa和Wb将特征图转化为m个64维标记(HSI)和1个标记(LiDAR)。参数共享策略使网络参数量仅16.6M,远低于VGG-16(59.2M)等对比模型。

2. 图注意力融合模块

将HSI标记(m×64)与LiDAR标记(1×64)拼接后,构建无向加权子图Gi={XiHL,Di}: - 节点表示:每个标记作为独立顶点Xi_j^HL∈R^1×64 - 边权重:通过欧氏距离计算D_kl^i=||X_k^i-X_l^i||2 - 注意力机制:采用多头注意力(Q=3)聚合邻域信息,计算公式为: α_kl=exp(LeakyReLU(a^T[WX_k||WX_l]))/∑exp(LeakyReLU(a^T[WX_k||WX_j]))

3. 分类模块

融合后的特征通过两个全连接层进行分类,使用交叉熵损失函数。采用两阶段训练策略:前100epoch使用Adam优化器(lr=5e-4),后100epoch改用SGD(lr=1e-5)。

实验结果

数据集验证

在三个标准数据集上取得state-of-the-art性能: 1. Trento数据集:OA 98.96%、AA 97.47%、Kappa 98.61 2. Houston 2013数据集:OA 90.13%、AA 90.23%、Kappa 89.83 3. MUUFL数据集:OA 92.76%、AA 94.28%、Kappa 90.43

特别在”同谱异物”场景表现突出: - Houston数据集中grass healthy/stressed/synthetic三类区分准确率达86.79%/98.40%/96.23% - MUUFL数据集中buildings与shadow分类准确率95.77%/96.27%

消融实验

  1. 参数m分析:HSI标记数m=6时达到最优,m>6会导致过拟合
  2. 注意力头数q分析:q=3时性能最佳,继续增加会降低效果
  3. 模块有效性
    • 去除OIE模块使OA下降3.71-5.14%
    • 去除参数共享使OA下降6.76-9.39%

统计显著性

Friedman检验(α=0.05)证实GAMF显著优于S2FL、EndNet和HybridSN等基线方法(p<0.01)。

研究结论与价值

科学价值

  1. 提出参数共享的三分支特征提取架构,有效挖掘多源数据相关性与互补性
  2. 设计高斯标记化方法解决光谱长距离依赖问题
  3. 构建异构图表征多源特征关系,通过注意力机制实现自适应融合

应用价值

  1. 土地利用/覆盖分类精度提升3-5%,特别在城乡复杂场景优势明显
  2. 模型参数量仅为ResNet50的8.4%,更适合实际部署
  3. 可扩展至医疗HSI融合、农业遥感等多源数据任务

研究亮点

  1. 方法创新:首次将图注意力机制引入HSI-LiDAR融合,构建多源特征图
  2. 技术突破:通过高斯标记化将3D-CNN与2D-CNN优势结合
  3. 工程价值:共享参数设计使模型轻量化,适合资源受限场景
  4. 理论基础:从图论角度形式化证明了多源特征融合的数学完备性

局限与展望

  1. 标记数量m需手动设定,未来可研究自适应确定方法
  2. 对HSI数据质量敏感,云阴影区域性能下降约15%
  3. 下一步将扩展至三模态融合,并探索在精准农业中的应用
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com