本研究由Jianghui Cai、Min Zhang、Haifeng Yang(通讯作者)等来自太原科技大学(Taiyuan University of Science and Technology, TYUST)计算机科学与技术学院、中北大学(North University of China, NUC)数据科学与技术学院以及山西省大数据分析与并行计算重点实验室的研究团队完成。研究成果发表于《Expert Systems with Applications》期刊2024年第249卷,文章编号123587。
本研究属于遥感图像处理与多源数据融合领域。高光谱图像(Hyperspectral Image, HSI)包含数百个光谱波段,能提供详细的光谱信息,但在城乡区域常面临”同谱异物”问题;而激光雷达(Light Detection and Ranging, LiDAR)数据能记录物体高程信息,与HSI形成互补。传统基于CNN的融合方法存在两大局限:(1)忽略不同数据源间的相关性与互补性,难以建模光谱信息的长距离依赖关系;(2)简单拼接多源特征嵌入会忽略深层语义关联。为此,研究团队提出新型图注意力多模态融合网络(Graph-Attention based Multimodal Fusion Network, GAMF),旨在解决上述问题。
研究采用三分支CNN架构(HSI_2S、HSI_OIE和LiDAR分支)作为特征提取主干: - HSI_2S分支:通过3个Conv3D和2个Conv2D层提取空间-光谱特征,采用GELU激活函数 - HSI_OIE分支:类似残差结构,保留原始HSI特征,使用与HSI_2S共享参数的Conv2D层 - LiDAR分支:多个Conv2D层处理空间-高程特征,最终层与HSI分支参数共享
创新性地采用高斯加权标记化(Gaussian Tokenization)进行特征转换,通过可学习权重Wa和Wb将特征图转化为m个64维标记(HSI)和1个标记(LiDAR)。参数共享策略使网络参数量仅16.6M,远低于VGG-16(59.2M)等对比模型。
将HSI标记(m×64)与LiDAR标记(1×64)拼接后,构建无向加权子图Gi={XiHL,Di}: - 节点表示:每个标记作为独立顶点Xi_j^HL∈R^1×64 - 边权重:通过欧氏距离计算D_kl^i=||X_k^i-X_l^i||2 - 注意力机制:采用多头注意力(Q=3)聚合邻域信息,计算公式为: α_kl=exp(LeakyReLU(a^T[WX_k||WX_l]))/∑exp(LeakyReLU(a^T[WX_k||WX_j]))
融合后的特征通过两个全连接层进行分类,使用交叉熵损失函数。采用两阶段训练策略:前100epoch使用Adam优化器(lr=5e-4),后100epoch改用SGD(lr=1e-5)。
在三个标准数据集上取得state-of-the-art性能: 1. Trento数据集:OA 98.96%、AA 97.47%、Kappa 98.61 2. Houston 2013数据集:OA 90.13%、AA 90.23%、Kappa 89.83 3. MUUFL数据集:OA 92.76%、AA 94.28%、Kappa 90.43
特别在”同谱异物”场景表现突出: - Houston数据集中grass healthy/stressed/synthetic三类区分准确率达86.79%/98.40%/96.23% - MUUFL数据集中buildings与shadow分类准确率95.77%/96.27%
Friedman检验(α=0.05)证实GAMF显著优于S2FL、EndNet和HybridSN等基线方法(p<0.01)。