分享自:

用于人类活动识别的多传感器数据融合与CNN-LSTM模型系统

期刊:sensorsDOI:10.3390/s23104750

基于多传感器数据融合与CNN-LSTM模型的人体活动识别系统研究

一、 研究作者、机构与发表情况

本研究由来自北京石油化工学院人工智能学院(Academy of Artificial Intelligence, Beijing Institute of Petrochemical Technology)以及北京安全工程技术研究院(Beijing Academy of Safety Engineering and Technology)的研究团队完成。主要作者包括:Haiyang Zhou, Yixin Zhao, Yanzhong Liu, Sichao Lu, Xiang An* (通讯作者) 和 Qiang Liu。该研究成果以《Multi-Sensor Data Fusion and CNN-LSTM Model for Human Activity Recognition System》为题,发表于期刊《Sensors》(ISSN 1424-8220)2023年第23卷第10期,文章编号4750,于2023年5月14日正式在线发表。该文章遵循知识共享署名(CC BY)许可协议开放获取。

二、 学术背景与研究目标

本研究的核心科学领域是人体活动识别(Human Activity Recognition, HAR),这是计算机视觉、传感器技术和模式识别交叉融合的重要研究方向。随着全球人口老龄化加剧,独居老人的居家安全成为一个严峻的社会问题。老年人身体机能下降,跌倒等意外事件发生率高且后果严重,因此,通过技术手段实现对其日常活动的自动、准确、非侵入式监控具有巨大的现实需求。

目前,主流的HAR方法主要分为三类:基于摄像头(视觉)的方法、基于可穿戴传感器的方法和基于毫米波雷达的方法。每种方法均有其局限:基于摄像头的方法在正常光照下精度高,但在低光照环境下性能急剧下降,且存在侵犯隐私的风险;基于可穿戴传感器的方法(如加速度计)受设备电池续航和佩戴舒适度限制,且可能产生误报;基于毫米波雷达的方法不受光照影响,能保护隐私,但在复杂环境下处理原始信号难度大,且单一传感器的识别精度通常低于正常光照下的摄像头。

为克服单一传感器的局限性,本研究旨在设计并实现一个新型的HAR系统。其核心科学问题是:如何有效融合摄像头与毫米波雷达的数据,以充分发挥二者优势(摄像头在正常光下的高精度、毫米波雷达在低光下的稳定性),从而在包括低光照在内的各种光照条件下,都能实现高精度、低误判率的人体活动识别,并减少对隐私的侵犯。

具体研究目标包括: 1. 构建一个融合摄像头与60GHz毫米波雷达的多传感器硬件系统。 2. 开发针对该多模态数据的时空校准与预处理方法。 3. 设计一种改进的卷积神经网络-长短期记忆网络(CNN-LSTM)模型,以同时提取融合数据中的空间与时间特征。 4. 系统研究与比较三种不同层级的数据融合算法(数据层融合、特征层融合、决策层融合)在该系统中的应用效果。 5. 在正常光与低光环境下,验证所提系统在识别五种常见人体活动(坐、走、弯腰、蹲下、跌倒)上的性能,并证明其相较于单一传感器方案的优越性。

三、 详细研究流程

本研究遵循了一套完整且严谨的科研工作流程,从系统构建、数据采集、模型设计到实验验证,环环相扣。

第一环节:多传感器系统构建与校准 研究首先搭建了硬件平台。系统包含两个核心传感器:一个Logi C270 USB摄像头(分辨率1280×720,帧率30 fps)和一个德州仪器(Texas Instruments)的60GHz IWR6843ISK毫米波雷达评估板(结合DCA1000EVM和mmWaveICBoost用于原始数据采集)。为减少传感器位置差异带来的数据偏差,将毫米波雷达固定于地面以上150厘米处,摄像头置于其正上方10厘米处,二者通过USB连接至同一计算机进行数据同步采集与处理。

随后,进行了至关重要的系统校准,包括空间校准和时间校准。 * 空间校准:由于摄像头和雷达处于不同的坐标系,需将其统一至世界坐标系。对于摄像头,采用张正友标定法,使用24张不同角度的棋盘格标定图,通过MATLAB标定工具箱计算其内参矩阵、旋转矩阵和平移向量。对于毫米波雷达,基于其安装几何关系(与摄像头同轴垂直),建立了从雷达极坐标系(距离、角度)到世界笛卡尔坐标系的映射公式。这使得两种传感器探测到的目标空间位置能够对齐。 * 时间校准:两个传感器数据采集频率不同(雷达:20帧/秒,摄像头:30帧/秒)。为实现数据同步,对摄像头数据进行了降采样处理,使其帧率与雷达保持一致(20帧/秒),并通过时间戳对齐算法确保每一帧雷达数据都与对应时间点的摄像头图像序列相匹配,为后续的数据融合奠定基础。

第二环节:数据采集与预处理 研究招募了10名志愿者(6男4女),在正常光和低光两种环境下,分别重复执行坐、走、弯腰、蹲下、跌倒五种活动各30次,最终构建了一个包含3000个数据样本(每种传感器数据各3000段序列)的数据集。数据集按8:2的比例划分为训练集和测试集。

对采集的原始数据进行了针对性预处理: * 毫米波雷达数据:原始信号为一维复数阵列。首先,通过距离快速傅里叶变换(Range-FFT)处理,生成反映目标距离变化的距离谱图。其次,通过短时傅里叶变换(STFT)生成反映目标微多普勒特征的时频谱图。这两种谱图以图像形式直观体现了不同活动的运动特征。最后,为抑制环境噪声,对生成的谱图应用了二维中值滤波进行降噪处理。 * 摄像头视频数据:使用OpenCV录制视频(3秒时长,640×480分辨率)。利用FFmpeg软件将每段视频转换为图像序列。为适配深度学习模型输入,将所有图像尺寸统一缩放至224×224像素。同时,为与雷达数据帧数对齐,将图像序列降采样至20帧。

第三环节:模型设计与融合算法实现 本研究提出了一种改进的CNN-LSTM混合神经网络模型。 * CNN-LSTM模型结构:该模型旨在同时捕捉数据的空间和时间特征。前端是一个五层的CNN网络,用于从每一帧雷达谱图或图像中提取空间特征。其创新之处在于,前四层使用最大池化,而最后一层采用平均池化,以更好地保留背景信息并传递给后续时序模块。CNN每层均包含卷积、批归一化(Batch Normalization, BN)、ReLU激活函数和池化操作,以加速收敛并防止过拟合。后端是一个LSTM网络,接收由CNN提取的、按时间顺序排列的特征序列,学习活动过程中的时间动态和依赖关系,从而输出最终的分类结果。 * 多传感器数据融合算法:研究系统比较了三种经典融合策略在本系统中的应用: 1. 数据层融合:在预处理后,直接将时间-空间对齐后的雷达谱图与摄像头图像序列在通道维度上进行拼接,形成一个多通道的融合数据块,然后输入到单一的CNN-LSTM模型中进行端到端的训练与识别。 2. 特征层融合:使用两个独立的CNN网络分别处理雷达数据和摄像头数据,提取高级特征。然后,在特征层面进行融合,具体尝试了两种方式:特征相加(要求特征图尺寸一致,逐点相加)和特征拼接(沿特征维度连接)。融合后的特征再送入共享的LSTM层进行分类。 3. 决策层融合:摄像头和雷达数据分别通过两个独立的CNN-LSTM模型进行处理,得到各自的初步分类概率结果。然后在决策层面进行融合,具体采用了三种策略:平均值融合加权融合(为不同传感器分配权重)和最大值融合(取各传感器预测概率的最大值作为最终结果)。

第四环节:系统测试与评估 实验设计包含两部分对比: 1. 模型对比实验:在低光环境下,分别将仅使用雷达数据、仅使用正常光摄像头数据、仅使用低光摄像头数据作为输入,对比了传统CNN、RNN和本文提出的CNN-LSTM模型的识别性能。 2. 融合算法对比实验:在低光环境下,将上述三种融合算法与CNN-LSTM模型结合,使用融合数据进行训练和测试,并与其各自对应的单一传感器数据(低光摄像头、低光雷达)的识别结果进行对比。评估指标采用整体识别精度和混淆矩阵,以全面衡量模型性能和各类活动间的误判情况。

四、 主要研究结果

实验取得了以下关键结果,数据有力地支撑了研究假设。

模型性能对比结果: * 在低光环境下,使用雷达数据时,CNN-LSTM模型对五种活动的平均识别精度显著高于CNN和RNN模型,例如对“坐”和“走”的识别率分别达到95.83%和100%,展示了其处理时序-空间特征的能力。 * 使用正常光摄像头数据时,所有模型性能均很优秀,但CNN-LSTM仍然表现最佳,各项活动识别率均超过96%,验证了模型的有效性。 * 关键发现:当使用低光摄像头数据时,所有模型的性能均出现灾难性下降。CNN-LSTM的识别精度也大幅降低,例如“蹲下”的识别率仅为12.58%。混淆矩阵显示,活动间存在大量混淆,如弯腰与跌倒、坐与蹲下之间误判严重。这直接证明了单一摄像头在低光条件下的局限性。 * 相比之下,使用低光雷达数据,CNN-LSTM模型取得了显著更好的结果,平均精度大幅提升,特别是“行走”达到100%识别。混淆矩阵显示误判率最高为16%(将蹲下误判为坐),远低于低光摄像头。这证实了毫米波雷达在低光环境下的稳定性优势。

融合算法性能结果(核心贡献): 将融合数据(低光摄像头+低光雷达)输入CNN-LSTM模型后,系统性能得到全面提升: * 与低光摄像头数据相比:三种融合算法均带来了巨大的精度提升。数据层融合、特征层融合(加法)、决策层融合(平均值)的识别精度分别至少提升了26.68%、19.87%和21.92%。这直接证明了多传感器融合能有效弥补单一摄像头在低光下的缺陷。 * 与低光雷达数据相比:融合数据在部分活动(如蹲下、跌倒)上的识别精度也有进一步提升(例如分别提升6.64%和10.27%),表明摄像头信息的引入补充了雷达可能缺失的细节特征。 * 算法间对比:数据层融合算法表现最为均衡和优异,其对五种活动的平均识别精度均达到约95%左右(坐:94.55%,弯腰:94.12%,走:98.04%,蹲下:95.92%,跌倒:95.91%)。其特征是实现了最低的总体误判率,将最易混淆活动之间的误判率降低至2%~6%的极低水平。决策层融合算法次之,不同策略在不同活动上各有优势。特征层融合算法效果相对较弱,但仍远优于单一低光摄像头输入。 * 结果逻辑关系:这些结果清晰地展示了研究逻辑链:单一传感器在特定条件下(低光)存在性能瓶颈 → 通过硬件系统集成与校准,实现多源异构数据对齐 → 利用设计的CNN-LSTM模型有效提取融合数据的时空特征 → 在不同层级应用融合算法,实验证明数据层融合能最大程度地保留原始信息互补性,从而在低光环境下实现了接近正常光下单摄像头的高精度识别,并显著降低了易混淆活动的误判率。

五、 研究结论与价值

本研究成功设计并验证了一个基于摄像头与毫米波雷达数据融合的HAR系统。主要结论如下: 1. 所提出的改进型CNN-LSTM模型能够有效联合提取多模态数据的空间与时间特征,为融合信息处理提供了强大的模型基础。 2. 多传感器数据融合策略能显著提升低光环境下HAR的准确性和鲁棒性。其中,数据层融合算法在本系统中表现最优,实现了高精度与低误判率的平衡。 3. 该系统结合了视觉信息在细节分辨上的优势和毫米波雷达对光照不敏感、保护隐私的特性,为解决低光环境、隐私敏感区域(如卧室、浴室)的持续、可靠活动监控提供了一种有效的技术方案。

本研究的价值体现在: * 科学价值:深入探索并比较了不同层级数据融合算法在异构传感器(视觉与射频)HAR任务中的性能,为多模态信息融合研究提供了具体的案例分析和实验依据。提出的CNN-LSTM模型结构改进(末端使用平均池化)也为类似时空序列建模任务提供了参考。 * 应用价值:直接面向智慧养老、居家健康监护、安全监控等重大社会需求,所开发的系统原型具有明确的实用化前景。它能够在确保一定识别精度的同时,降低对隐私的侵扰,并通过在隐私区域仅部署毫米波雷达的灵活配置方式,平衡了性能与伦理需求。

六、 研究亮点

  1. 问题导向的创新性:精准抓住了现有HAR技术在低光照和隐私保护方面的核心痛点,创造性地将普及型的摄像头与新兴的60GHz毫米波雷达相结合,提出了一个切实可行的软硬件一体化解决方案。
  2. 系统化的比较研究:不仅提出了新系统,而且对数据层、特征层、决策层这三类经典融合算法在同一任务、同一模型框架下进行了系统性的实证比较,明确了数据层融合在本场景下的优势,结论扎实。
  3. 细节改进提升性能:在模型设计上,通过将CNN末层池化方式从最大池化改为平均池化,这一细微但关键的改动,加强了对背景时序信息的传递,提升了LSTM处理时序特征的效果。
  4. 工程与学术结合紧密:研究涵盖了从传感器选型、空间-时间校准、数据采集与预处理、模型构建与训练到全面实验评估的完整链条,体现了良好的工程实现能力与学术研究深度的结合。

七、 其他有价值内容

研究中对毫米波雷达数据的预处理(生成时频谱图和距离谱图)以及对摄像头图像的序列化处理,为如何处理这些非传统图像输入以适配深度学习模型提供了标准化的流程参考。此外,论文在“相关工作”部分对基于单一传感器及多传感器融合的HAR研究进行了较全面的梳理,为读者了解该领域发展现状提供了良好的背景信息。实验部分公开了所使用的传感器具体参数、数据集构建细节和模型超参数(如卷积核尺寸、层数等),保证了研究的可重复性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com