分享自:

基于多模态特征融合的无线干扰识别

期刊:IEEE Communications LettersDOI:10.1109/LCOMM.2025.3624471

基于多模态特征融合的无线干扰识别研究学术报告

一、 研究团队与发表信息

本研究由来自中国多所高校的研究团队共同完成。主要作者包括:周尚聪(成都信息工程大学通信工程学院)、张勇(成都信息工程大学四川省气象信息与信号处理重点实验室,同时隶属于电子科技大学通信抗干扰技术国家级重点实验室)、朱立东(电子科技大学通信抗干扰技术国家级重点实验室)和姚远飞(成都工业学院网络与通信工程学院)。该研究成果以题为“Wireless Interference Recognition Based on Multimodal Feature Fusion”(基于多模态特征融合的无线干扰识别)的学术论文形式,发表于IEEE Communications Letters期刊的第30卷,2026年。论文的在线发表日期为2025年10月22日,正式版本出版日期为2025年12月19日。

二、 学术背景与研究目的

本研究属于无线通信领域,具体聚焦于通信抗干扰(Anti-Jamming, AJ)技术中的关键环节——无线干扰识别(Wireless Interference Recognition, WIR)。随着无线通信技术的飞速发展,通信系统面临的电磁环境日益复杂,干扰信号的存在严重威胁着信息传输的可靠性。有效的抗干扰技术依赖于对干扰信号类型的准确识别,从而为采取针对性对抗措施提供关键依据。

传统的无线干扰识别方法主要分为两大类:基于最大似然估计的方法和基于特征提取的方法。前者计算复杂度高,后者则严重依赖于人工设计的特征,其有效性受限于研究者对干扰信号的理解深度,人为因素影响大,且在低干噪比(Interference-to-Noise Ratio, INR)条件下性能显著下降。近年来,深度学习在无线通信的波形识别、自动调制分类等领域展现出优越性能。干扰信号可以从多个域(如时域、频域、时频域)进行分析,每个域都包含丰富的特征信息。现有研究多采用单一模态数据(如仅用时域序列或时频图像)或简单的多特征组合策略,未能充分利用不同模态数据间的互补信息,且在复杂低信噪比环境下识别性能有限。

为此,本研究旨在解决传统方法在低INR下性能退化的问题。研究团队提出了一种创新的多模态特征融合(Multimodal Feature Fusion, MFF) 方法,核心目标是通过融合干扰信号的两种不同模态数据——时频图像(Time-Frequency Image, TFI)时频序列(Time-Frequency Sequence, TFS),来提升无线干扰信号的识别准确率,尤其是在恶劣的低干噪比条件下。同时,针对多模态融合可能带来的模型过拟合问题,论文还提出了一种分阶段的动态学习率调整方法以优化模型训练。

三、 研究流程与方法细节

本研究的工作流程是一个完整的基于深度学习的信号处理与分类 pipeline,主要包括数据生成与预处理、多模态特征提取、特征融合、分类识别以及训练优化等步骤。

1. 数据生成与系统模型: 研究首先构建了一个模拟的复杂通信环境系统模型。接收信号r(t)被建模为通信信号s(t)、干扰信号i(t)和高斯白噪声n(t)的叠加。研究的核心目标是仅通过接收到的r(t)来识别干扰信号i(t)的类型。研究共模拟了七种典型的干扰信号类型,包括:单音(Single-Tone, ST)、多音(Multi-Tone, MT)、线性调频(Linear Frequency Modulation, LFM)、噪声调频(Noise Frequency Modulation, NFM)、部分频带噪声(Partial Band Noise, PBN)、BPSK窄带(BPSK Narrowband, BPSKN)和BPSK宽带(BPSK Broadband, BPSKB)干扰。通信信号采用QPSK调制和跳频技术。研究使用MATLAB生成包含不同INR(从-10 dB到10 dB)的干扰信号数据集。具体而言,在干信比(Interference-to-Signal Ratio, ISR)固定为5 dB的条件下,生成七类信号。训练集和验证集的INR范围为-10 dB至10 dB,训练集包含800个数据点(对应800个TFI和800个TFS),验证集包含200个数据点。测试集则针对从-10 dB到10 dB(间隔2 dB)的每个INR值,生成200个数据点。

2. 多模态特征提取模块构建: 这是本研究的核心创新之一。研究团队为两种不同模态的数据分别设计了专门的特征提取网络。 * 图像特征提取模块: 该模块用于处理时频图像(TFI)。TFI通过对归一化后的接收信号进行短时傅里叶变换(STFT)得到。模块的主体结构基于卷积神经网络(CNN),并引入了残差结构(Residual Structure)。残差结构通过跳跃连接(Skip Connection)和残差学习的思想,有效缓解了深层网络训练中的梯度消失问题,允许构建更深的网络以提升特征表示能力。具体公式为xl+1 = f(h(xl) + F(xl, wl)),其中h(xl)为恒等映射。该模块能够自动从TFI中提取丰富的空间纹理和形状特征。 * 文本特征提取模块: 该模块用于处理时频序列(TFS)。TFS同样由STFT产生,是一个二维矩阵(时间×频率),每个元素是复数值,代表特定时间和频率处的复频谱。研究计算了其模值形成实数矩阵作为输入。该模块由一维卷积层、一维池化层和双向长短期记忆网络(Bidirectional LSTM, BiLSTM) 组成。一维卷积和池化用于降低序列长度,加速训练。BiLSTM能够同时捕获序列的前向和后向依赖关系,从而更有效地提取TFS中的时序动态演化特征。论文详细描述了LSTM中遗忘门、输入门、输出门以及单元状态更新的计算过程。

3. 多模态特征融合: 为了建立TFI特征(fp)和TFS特征(ft)之间的深层关联,实现信息互补,研究采用了交叉注意力机制(Cross-Attention Mechanism)。该机制将一种模态的特征作为查询(Query),另一种模态的特征作为键(Key)和值(Value),计算注意力权重。具体地,本研究以TFI特征fp作为查询,TFS特征ft作为键和值,通过公式ff = softmax((fp * ft^T) / √dk) * ft 计算得到融合特征ff。这个过程使得模型能够关注TFS特征中与TFI特征最相关的部分,实现自适应、有重点的特征融合。

4. 分类与训练优化: 将提取的TFI特征与融合后的特征进行拼接(Concatenate),然后送入分类器(全连接层)进行最终的干扰信号类型分类。针对多模态特征融合可能导致的模型过拟合问题,论文提出了一种新颖的分阶段动态学习率调整方法。该方法将整个训练周期分为三个阶段:上升期、稳定期和下降期。在上升期(前10个周期),学习率线性增长至最大值ηmax;在随后的5个周期稳定期内,学习率保持ηmax不变;在最后的下降期,学习率按照余弦退火(Cosine Annealing)策略从ηmax衰减至最小值ηmin。这种策略有助于模型在训练初期快速探索,在中期稳定学习,在后期精细调优,从而有效缓解过拟合,提升模型泛化能力。

5. 实验设置与对比方法: 研究使用生成的模拟数据集对提出的MFF网络进行训练和评估。批量大小(Batch Size)设置为64,总训练周期(Epoch)为70。学习率调整参数中,ηmax=0.001, ηmin=0.0001。为了验证MFF方法的有效性,研究设置了多个对比实验,包括:仅使用时频图像输入的经典VGG16网络、仅使用时频图像输入的Vision Transformer(ViT)模型、以及一篇引用文献[16]中的方法(该方法结合了联邦学习和模型无关元学习,使用多图输入)。此外,为了验证所提动态学习率调整方法的必要性,研究还构建了一个简化版MFF(S-MFF),其网络结构与MFF相同,但使用固定的学习率(0.001)进行训练。

四、 主要研究结果

实验结果表明,本研究提出的MFF方法在无线干扰识别任务上取得了显著优于传统方法的性能。

1. 动态学习率调整的效果验证: 通过对比MFF和S-MFF的训练过程可以清晰看到动态学习率调整的价值。如图4所示,S-MFF在训练过程中,随着周期增加,验证集准确率出现波动,表明模型出现了过拟合。而MFF在训练初期(前10个周期)验证准确率虽有波动,但在学习率进入稳定期和下降期后,模型逐步整合了两种模态数据的特征,验证准确率最终趋于稳定并达到更高水平。图5进一步展示了在低INR(-10 dB, -8 dB, -6 dB)条件下,MFF对七类干扰信号的识别准确率均优于S-MFF。这直接证明了分阶段动态学习率调整策略在缓解过拟合、提升模型鲁棒性方面的有效性。

2. 多模态特征融合的整体性能优势: 表II总结了五种方法(VGG16, [16], ViT, S-MFF, MFF)的平均识别准确率。结果显示,采用单一模态数据(仅TFI)的VGG16、[16]和ViT方法的性能相对较低。而采用了多模态数据融合的S-MFF和MFF方法平均识别准确率显著优于前三种方法,且MFF(结合了动态学习率调整)的性能最高。这强有力地证明了融合时频图像和时频序列两种模态信息能够有效提升识别性能。

3. 在低干噪比条件下的卓越性能: 图6(a)展示了五种方法在不同INR下的平均识别准确率曲线。可以明显看到,在低INR区域(特别是低于-2 dB),MFF方法相比其他方法具有明显的性能优势。论文明确指出,当INR低至-6 dB时,MFF方法对干扰信号的识别准确率仍能达到92.2%;当INR达到0 dB时,识别准确率可达100%。这一结果充分达成了研究初衷,即解决传统方法在低INR条件下性能下降的问题。

4. 对不同干扰类型的识别分析: 图6(b)和©分别展示了五种方法对噪声调频(NFM)和多音(MT)干扰的识别准确率随INR变化的情况。对于NFM信号,当INR低于-2 dB时,所有方法的识别率都较差,但MFF仍然是其中最高的;随着INR升高,各方法性能提升并趋于稳定。对于MT信号,在INR低于0 dB时,MFF和S-MFF的识别率也较低,论文分析原因是MT干扰是多个单音干扰在一定功率上的叠加,在低信噪比下易受噪声影响;但随着INR增加,MFF的识别率迅速提升。这些细节分析表明,MFF方法在面对不同特性的干扰时均表现出较强的适应性和优越性。

五、 研究结论与价值

本研究成功提出并验证了一种基于多模态特征融合的无线干扰识别新方法。主要结论如下:通过构建专门的图像特征提取模块(基于CNN与残差结构)和文本特征提取模块(基于BiLSTM),能够有效从干扰信号的时频图像和时频序列中提取互补的特征信息。利用交叉注意力机制实现两种模态特征的深度融合,显著提升了特征的表征能力。针对训练过拟合问题提出的分阶段动态学习率调整方法,有效提升了模型的泛化性能。仿真实验证明,该方法尤其在低干噪比恶劣环境下具有显著优势,识别准确率远超传统的基于单一模态或简单特征组合的方法。

该研究的价值体现在:科学价值方面,它将计算机视觉和自然语言处理中成熟的多模态学习思想创新性地引入无线信号处理领域,为复杂电磁环境下的信号识别提供了一种新的研究范式和技术路径。应用价值方面,该方法能够提高通信系统在强噪声和复杂干扰环境下的生存能力和可靠性,对于军事通信、民用应急通信、物联网等需要高可靠传输的场景具有重要的潜在应用价值。所提出的网络架构和训练优化策略也具有可扩展性,为后续处理更多类型干扰或复合干扰奠定了基础。

六、 研究亮点

  1. 多模态数据融合的创新应用: 首次在无线干扰识别任务中,系统性地将信号的时频图像(视觉模态)和时频序列(文本/序列模态)进行深度融合,充分利用了信号在不同域的表征信息,克服了单一模态信息不全面的缺点。
  2. 针对性的网络架构设计: 没有使用通用的多模态网络,而是根据信号数据的特点,分别为图像模态和序列模态设计了基于改进CNN和BiLSTM的特征提取器,并引入交叉注意力机制进行自适应特征融合,体现了领域适应性。
  3. 有效的训练优化策略: 提出的分阶段动态学习率调整方法,简单而有效地解决了多模态深度学习模型中常见的过拟合问题,提升了模型在低INR条件下的鲁棒性,这是一个具有实用价值的工程贡献。
  4. 显著的性能提升: 在严格的仿真对比实验中,所提方法在低干噪比(-6 dB)下达到92.2%的识别准确率,显著优于包括经典CNN(VGG16)、前沿Transformer(ViT)在内的多种对比方法,验证了其有效性。

七、 其他有价值内容与展望

论文在最后也坦诚地指出了当前工作的局限性并展望了未来方向。本研究针对的是七种特定的干扰信号类型,但方法本身具有一定的可扩展性,只需将新干扰类型加入数据集即可。然而,当前研究尚未考虑多干扰源共存的情况,也未研究复合干扰(两种或以上基本干扰类型的组合)的识别问题。作者表示,下一步将考虑更严峻的电磁环境,研究单一干扰与复合干扰共存场景下的识别问题。这为后续研究指明了清晰且有挑战性的方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com