用于多模态遥感分类的空间-光谱-频率交互网络

分享自：
用于多模态遥感分类的空间-光谱-频率交互网络

期刊:Pattern Recognition
本文旨在向学术界介绍一篇于2026年4月10日提交至《模式识别》（Pattern Recognition）期刊的预印本研究论文。该论文由来自意大利特伦托大学、北京理工大学、西安电子科技大学以及内蒙古师范大学人工智能学院的Hao Liu, Yunhao Gao, Wei Li, Mingyang Zhang, Maoguo Gong, Lorenzo Bruzzone（通讯作者）等学者共同完成。论文标题为“用于多模态遥感分类的空间-光谱-频率交互网络”，提出了一种名为S2FIN的新型深度学习框架，旨在解决标签稀缺场景下多模态遥感图像分类的挑战。
一、 研究背景与目标
本研究属于遥感科学与人工智能交叉领域，具体聚焦于利用深度学习进行多模态遥感数据（如高光谱/多光谱图像与合成孔径雷达/激光雷达数据）的像素级分类。分类结果对于环境监测、城市规划、自然资源管理等应用至关重要。
尽管基于深度学习的方法在遥感数据分析中取得了显著成功，现有技术在处理异构（heterogeneous）且冗余的多模态图像时仍面临挑战。传统方法大多在空间域或联合空间-光谱域进行特征融合，往往难以有效提取图像的结构性信息和细节特征，尤其是在标记样本稀缺的情况下。这导致分类边界模糊和特征一致性下降。频率域学习为上述问题提供了新的视角：在频率域中，图像的低频分量通常对应平滑区域和全局结构，而高频分量则对应边缘、纹理等关键细节。利用频率域信息可以产生强调信息性高频成分的稀疏表示，从而提高样本利用效率并减少对大规模训练数据的依赖。
然而，现有研究存在三个主要局限：1) 有限的域交互：传统方法多专注于双域（如空间-光谱或空间-频率）交互，缺乏对空间、光谱、频率三者的协同利用；2) 冗余的光谱曲线：高光谱图像波段间相似性高，现有方法难以从频率域角度优雅地捕捉光谱数据中细微的类间差异；3) 孤立的空间频率学习：网络浅层和深层特征分别对应纹理细节和物体级语义，与频率分量（高频细节、低频结构）存在对应关系，但现有融合策略往往采用“一刀切”的方式，忽略了在不同网络深度进行频率引导。
为此，本研究旨在提出一个新颖的“空间-光谱-频率交互网络”（Spatial-Spectral-Frequency Interactive Network, S2FIN），其核心目标是通过在空间、光谱和频率三个域之间建立成对的、深度自适应的交互机制，在标记样本有限（文中设定为每类仅10个标记样本）的条件下，实现对多模态遥感数据更鲁棒、更精确的分类。
二、 研究方法与工作流程
S2FIN框架遵循一个层次化的交互流程，在骨干网络的不同深度渐进式地融合空间、光谱和频率信息。其核心由三个模块构成，分别对应三种域间交互，整体工作流程可概括如下：
1. 光谱-频率交互：高频稀疏增强变换器（HFEST） * 研究对象与处理：该模块专门处理高光谱或多光谱（HSI/MSI）数据的光谱维度信息。输入是光谱数据的特征图。 * 方法与流程： * 动机：高光谱数据的光谱曲线波段间相似性高、冗余性强。通过一维离散傅里叶变换分析发现，不同类别的低频谱分量高度重叠，而高频分量则能更好地展现类间差异，更具判别性。 * 稀疏注意力：首先，使用深度可分离卷积获取查询（Q）、键（K）、值（V）向量，并采用平方ReLU激活函数的注意力机制，以抑制光谱维度上的负相关相似性，聚焦于信息量大的光谱特征，生成稀疏化的光谱特征。 * 自适应频率滤波：设计了一个基于Sigmoid函数的可微分软掩码，并引入可训练的频率截止参数和增益系数。该掩码用于在频率域中对光谱信号进行滤波，目的是自适应地增强判别性的高频成分，同时抑制冗余的低频成分。这个过程通过傅里叶变换、频域加权和逆傅里叶变换完成。 * 输出：最终，将稀疏注意力分支的输出与经过高频增强后的光谱特征通过线性层融合，得到精炼后的光谱特征，作为后续空间-光谱交互的输入。
2. 空间-频率交互：深度级空间频率融合策略（DSF） 此策略根据网络深度分为浅层和深层两个子模块，分别处理不同层次的频率信息。 * A. 浅层：自适应频率通道模块（AFCM） * 研究对象与处理：处理来自光谱数据和主动传感器（如SAR/LiDAR）数据的空间特征图。 * 方法与流程： * 频率分解：对输入的空间特征图进行二维离散余弦变换，将其转换到频率域。 * 分频处理：将频率谱划分为低频和高频部分。低频分量编码了跨模态共享的全局结构信息，AFCM将不同模态的低频分量进行融合，以促进结构知识共享。高频分量编码了模态特有的细节纹理，AFCM对各模态自身的高频分量进行增强以保留其独特性。 * 通道注意力融合：通过全连接层和Sigmoid函数生成通道注意力权重，分别对融合后的低频信息和增强后的高频信息进行加权，然后通过逆变换重构空间特征。该机制使网络能动态融合共享结构知识并同时增强区分性的模态特定信息。 * B. 深层：高频共振掩码（HFRM） * 研究对象与处理：处理经过网络中层融合和Mamba模块处理后的深层空间特征。 * 方法与流程： * 相位相关性分析：对来自不同模态的深层空间特征进行二维傅里叶变换，分解为振幅和相位。相位信息编码了图像的结构对齐和空间位置。 * 共振点定位与增强：利用相位相关性计算模态间特征的相干性。设计了一个基于极低温度Softmax的“Top-Soft”可微分选择算子，以端到端的方式自动定位相位相关性最高的空间频率点（即共振点）。 * 振幅调制：增强这些共振点对应位置的振幅，从而放大模态间一致的关键语义区域（如物体边界）的细节特征。同时，通过卷积和池化操作进一步处理整合后的振幅，提取对分类有益的高层语义信息。 * 输出：将调制后的振幅与融合后的相位结合，进行逆傅里叶变换，得到增强后的、聚焦于共有语义结构的空间特征用于最终分类。
3. 空间-光谱交互：空间-光谱注意力融合模块（SSAF） * 研究对象与处理：该模块作用于网络中层，负责桥接来自HFEST的精炼光谱特征和来自AFCM处理的初步空间特征。 * 方法与流程： * 注意力分数生成：分别从空间特征中提取中心像素特征，从光谱特征中提取通道维度最大特征，通过卷积和Sigmoid函数生成空间和光谱两个注意力分数图。 * 特征与注意力融合：将空间和光谱特征相加得到初步融合特征，同时将两个注意力图进行广播（broadcast）和融合。 * 自适应加权：利用融合后的注意力图对初步融合特征进行调制，生成一个权衡参数γ。该参数用于自适应地加权组合来自空间和光谱分支的贡献。 * 长程依赖建模：最后，使用Mamba模块对加权融合后的特征进行长程依赖关系建模，并再次通过注意力机制进行精炼，输出最终用于分类的融合特征。
4. 分类与实验流程 * 数据与设置：研究在四个公开的多模态遥感基准数据集（Houston 2013, Augsburg, Yellow River Estuary, LCZ HK）上验证S2FIN。实验设置为严格的少样本场景，每个类别随机选取10个标记样本进行训练。 * 对比方法：与七种先进的基线方法进行了比较，涵盖基于注意力的融合、模态感知架构融合、对比学习策略以及多尺度全局-局部聚合网络等。 * 评估指标：采用总体精度（OA）、平均精度（AA）和Kappa系数进行定量评估。 * 参数与分析：进行了参数敏感性分析（如局部窗口大小、振幅增强因子α）、消融实验（移除各个核心模块）、不确定性分析（10次运行计算标准差、置信区间等）、跨区域泛化分析以及计算复杂度分析。
三、 主要研究结果
定量性能领先：在四个数据集上的实验结果表明，S2FIN在少样本设置下 consistently 超越了所有先进的基线方法。具体而言，在OA指标上，相较于之前的最优方法，S2FIN在四个数据集上分别提升了1.36%、2.24%、2.20%和0.39%。这证明了其通过频率域交互增强特征判别力的有效性。
模块有效性验证：消融实验证实了各个核心模块的贡献。移除空间-频率融合模块（AFCM和HFRM）对性能影响最大，表明深度级频率引导至关重要。移除光谱-频率模块（HFEST）也会导致性能下降，凸显了从频率域提炼光谱特征的重要性。空间-光谱模块（SSAF）的移除影响相对较小，但其起到了重要的桥梁作用。
鲁棒性与泛化能力：不确定性分析显示，S2FIN在10次独立运行中表现出较低的方差（变异系数CV低于5%），统计检验（配对t检验）表明其性能提升具有统计显著性（p<0.05）。跨区域迁移学习实验（从香港到柏林，反之亦然）表明，即使目标区域每类仅有1-2个标记样本，基于S2FIN预训练模型的微调也能显著提升性能，证明了其提取的频域不变特征具有良好的泛化能力。
计算效率平衡：尽管引入了多个频率交互模块，但由于其轻量级设计以及使用了高效的Mamba骨干网络，S2FIN在参数量和计算量（GFLOPs）上与对比方法相比保持竞争力，甚至低于某些基于CNN或Transformer的复杂模型，实现了性能与效率的良好平衡。
定性结果分析：通过Grad-CAM可视化梯度激活图发现，AFCM模块增强了对先前被忽略的局部细节的关注（如图中红色框区域），而HFRM模块则放大了相位一致的、与真实地物对应的高频区域（如图中黄色框区域）。这直观地证明了频率感知机制能够引导网络关注更具判别性的细节，从而改善了分类图的质量，使其更接近真实地表覆盖情况。
四、 研究结论与价值
本研究成功提出并验证了S2FIN框架。其主要结论是：通过系统性地在空间、光谱和频率三个域之间建立深度自适应的交互机制，能够有效缓解多模态遥感数据在异构性、冗余性以及标签稀缺条件下特征提取的困难。具体而言，HFEST模块通过频域滤波增强了光谱特征的判别性；DSF策略在不同网络深度分别利用低频结构共享和高频细节共振，实现了结构与细节的分离与强化；SSAF模块则有效地桥接了光谱与空间信息流。
该研究的科学价值在于为多模态遥感分析开辟了“频率域学习”这一新视角，将频域分析深度整合到深度学习架构中，为解决特征冗余和细节模糊问题提供了系统性的方法论。其应用价值显著，所提出的框架对于标记数据获取困难的现实遥感应用（如灾害应急响应、精细土地覆盖制图）具有重要潜力，能够以更少的监督信息实现高精度分类。
五、 研究亮点
框架创新：首次提出了一个统一的“空间-光谱-频率”三域交互网络（S2FIN），突破了传统双域融合的局限，实现了更全面的特征协同利用。
方法新颖： HFEST：创新性地将稀疏注意力机制与自适应频域滤波结合，用于光谱信号的判别性高频增强。
深度级DSF策略：提出了AFCM和HFRM模块，分别在网络浅层和深层进行差异化的空间-频率融合，符合特征层级与频率分量的对应关系。
HFRM中的“Top-Soft”算子：利用相位相似性定位并增强模态间一致区域，是一种新颖的、可微分的高频细节增强方法。
实验严谨全面：在四个异构数据集上进行了充分验证，不仅包含性能对比，还涵盖了详尽的消融实验、参数分析、不确定性评估、可视化解释以及跨区域泛化测试，结论坚实可靠。
针对性强：研究明确针对“少样本”这一实际应用中的关键挑战，所有实验设计和分析都围绕此场景展开，成果具有明确的实用导向。
六、 其他有价值内容
论文还坦诚地讨论了当前工作的局限性，例如对经典网络架构（如ResNet, UNet）的探索有限，未在特定地理区域或全球尺度进行测试，以及在大规模部署时可能存在的计算扩展性挑战。同时，展望了未来的研究方向，包括将频域学习与经典架构及大基础模型结合、将框架扩展到变化检测等其他任务、开发更可靠的频域学习策略以应对过拟合风险等。最后，作者提到了此类高精度分类模型部署时应遵循负责任的人工智能框架，考虑数据隐私和地理空间情报的潜在滥用问题，体现了研究的伦理意识。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问