本研究的作者包括Minhao Ding、Bowen Tang、Yiqun Peng、Runjin Liu和Yipeng Ding(通讯作者),均来自中南大学电子信息学院。研究论文《Cross-Attention Augmented End-to-End Architecture for SISO FMCW Radar Activity Recognition with Swin-Transformer》于2021年8月发表在《Journal of LaTeX Class Files》上,并已被IEEE Internet of Things Journal接收,计划于2025年正式出版。
科学领域:
本研究属于雷达信号处理与人工智能交叉领域,聚焦于调频连续波(Frequency-Modulated Continuous-Wave, FMCW)雷达在人类活动识别(Human Activity Recognition, HAR)中的应用。
研究动机:
FMCW雷达因其非侵入性、全天候工作和抗干扰能力成为HAR的理想传感器,但传统依赖离散傅里叶变换(Discrete Fourier Transform, DFT)的方法存在固有局限:
1. 固定基函数:DFT的固定频率间隔无法自适应任务需求,导致活动信息提取不精确(如图3(b)所示)。
2. 时频分辨率限制:DFT的主瓣较宽,难以区分微小动作(如Δ < 分辨率时出现混叠,如图3(a)所示)。
3. 多模态信息利用不足:现有方法(如CubeLearn[1])仅单独处理距离-时间(R-T)、多普勒-时间(D-T)或距离-多普勒(R-D)映射,未充分挖掘多域特征关联性。
研究目标:
提出一种端到端架构CASA-Swin,通过跨注意力机制融合多域特征,解决上述问题,提升HAR精度。
输入数据:FMCW雷达原始ADC数据(采样点数256,每CPI 100ms,128个chirp)。
三分支特征提取:
- Range-Net:通过预设参数的复数全连接层模拟DFT,提取R-T特征。引入高斯噪声扰动(λ=0.1)避免局部最优。
- Doppler-Net:
- 多窗口滤波模块(MWFM):创新性地使用3组不同核尺寸(16/32/64)的1D复数卷积,模拟短时傅里叶变换(STFT)的变长窗口(图5)。数学推导表明,当卷积核权重满足$w_n(·)=e^{-j2π(nΔf)(m)}$时,可等效提取傅里叶基函数(公式8-10)。
- 输出维度为$(C, f_n, L_s)$,其中$C$为通道数,$f_n$为频率点数,$L_s$为信号长度。
- Range-Doppler-Net:堆叠两个复数全连接层,降低计算负载。
设计原理(图6):
- 将D-T特征作为查询(Query),R-T特征作为键(Key),R-D特征作为值(Value),通过线性映射后计算交叉注意力权重:
$$\text{Attention}(Q,K) = \text{softmax}\left(\frac{QK^T}{\sqrt{dk}}\right)$$
- 输出融合特征图$map{fu} = \text{Attention}(Q,K)^T \cdot V^T$,保留R-D信息的同时融入动态特征。
数据集:
- 自建数据集:
- HAR任务:12名受试者在办公室、走廊、公寓三种环境(图7)执行6类动作(挥手、行走等),共1728组数据。
- 步态识别:8名受试者(4男4女)行走数据,1440组。
- 开源数据集:手势识别数据集(6类动作,10,650样本)[40,41]。
对比方法:
12种先进算法,包括基于R-T的RD-Net[19]、基于D-T的HRSpecNet[25]、端到端的CubeLearn[1]等。
科学价值:
1. 提出首个融合复数网络与跨注意力的FMCW雷达端到端架构,解决了DFT固定基函数和分辨率限制的瓶颈。
2. 通过MWFM实现自适应时频分析,为雷达信号处理提供了新思路。
应用价值:
- 隐私保护场景:优于摄像头方案,适用于医疗监护、智能家居等敏感领域。
- 复杂环境鲁棒性:在低光照、多径干扰环境下表现稳定(图9)。
(注:文中引用标号[1]-[51]对应原文档参考文献,此处保留原格式。)