基于CNN-LSTM-GRU混合模型的人类活动识别研究
本研究旨在向科研同仁介绍一篇发表于International Research Journal on Advanced Engineering Hub (IRJAEH) 2024年4月第2卷第4期(页码:889-894)的研究论文。该论文题为《Human Activity Recognition Using CNN-LSTM-GRU Model》(基于CNN-LSTM-GRU模型的人类活动识别),第一作者为Garima Pandey(来自印度加兹阿巴德Galgotias大学),合作作者包括Abhishek Kumar Karn和Manish Jha(同属Galgotias大学)。
一、 研究的学术背景 该研究属于计算机视觉与机器学习交叉领域,具体方向为人类活动识别。随着可穿戴设备与智能终端的普及,利用传感器数据进行自动、实时的人类活动识别(Human Activity Recognition, HAR)在健康监测、人机交互、体育分析和安防等领域展现出巨大的应用潜力。传统的HAR方法依赖手工特征提取(如方向梯度直方图Histogram of Oriented Gradients, HOG)和传统机器学习算法(如支持向量机Support Vector Machine, SVM),其过程繁琐且需深厚的领域知识。 深度学习的发展为HAR带来了革命性变化。其中,卷积神经网络(Convolutional Neural Networks, CNN)擅长从原始传感器数据中自动提取具有判别力的空间特征(Spatial Features),而长短期记忆网络(Long Short-Term Memory, LSTM)则擅长对连续数据的时序依赖关系(Temporal Dependencies)进行建模。尽管CNN和LSTM各自已被广泛应用于HAR,但将它们有效结合以同时捕捉空间与时序信息,从而构建更鲁棒、更准确的识别系统,仍是研究热点。本研究正是基于此背景,提出了一种新颖的CNN-LSTM-GRU混合模型(尽管论文标题和摘要中提到了VGG-LSTM,但正文核心方法为CNN-LSTM-GRU),旨在克服单一模型的局限性,在无需复杂预处理的情况下,直接从原始传感器数据中高效、高精度地识别复杂的人类活动。
二、 研究的详细工作流程 本研究的工作流程主要包括数据准备、模型架构设计、实验设置、性能评估与对比分析四个核心环节。
第一环节:数据集与预处理 研究使用了两个公开基准数据集进行评估,以验证模型的泛化能力。 1. UCI HAR数据集:这是本研究主要使用的数据集。数据来自30名年龄在19-48岁的受试者,其腰间佩戴的智能手机内置的加速度计和陀螺仪。传感器记录了六类日常活动:行走、上楼梯、下楼梯、坐下、站立、躺下。原始信号为三维(X, Y, Z)时间序列。数据集包含7,352个训练样本和2,947个测试样本。 2. 预处理:对原始传感器信号应用了噪声滤波。数据被分割为固定宽度的滑动窗口,每个窗口持续2.56秒,重叠率为50%,即每个窗口包含128个读数。使用巴特沃斯低通滤波器将加速度信号分离为身体运动加速度和重力加速度分量。最终,每个数据样本由9个信号通道组成:总加速度(ax, ay, az)、陀螺仪角速度(gx, gy, gz)以及不含重力效应的线性加速度(lax, lay, laz)。该预处理步骤遵循了该数据集的通用做法,为模型输入提供了标准化的时序数据块。
第二环节:混合模型架构设计(CNN-LSTM-GRU) 这是本研究的核心创新点。作者设计了一个端到端的深度学习模型,其架构依次如下: 1. 输入层:接收形状为(None, 128, 9)的数据,代表批大小不固定、时间步长为128、特征维度为9的序列。 2. 一维卷积层(1D-CNN):作为特征提取器。本研究从一个基础的一维卷积层开始,使用TensorFlow的Keras库实现。该层配置了64个滤波器,卷积核大小为3,激活函数为ReLU。其作用是自动学习传感器信号在局部时间窗口内的空间(或更准确地说是跨特征通道的局部模式)特征。 3. 一维最大池化层(1D Max-Pooling):池化大小为2。用于对卷积特征进行下采样,降低数据维度,增强特征的平移不变性,并减少计算量。 4. 展平层(Flatten Layer):将池化后的多维特征图展平为一维向量,以便输入到后续的循环神经网络层。 5. 长短期记忆网络层(LSTM):这是处理时序依赖的关键组件。该LSTM层包含128个单元,同样使用ReLU激活函数。它接收由CNN提取并展平的特征序列,学习人类活动数据中长距离的时序模式和上下文信息。 6. 门控循环单元层(GRU):在LSTM层之后,模型进一步集成了一个GRU层。GRU是LSTM的一种变体,具有更简单的门控机制(重置门和更新门),旨在更有效地捕捉和建模序列数据中的长期依赖关系,增强模型对复杂时序模式的理解能力。 7. 全连接输出层(Fully Connected Output Layer):该层使用Softmax激活函数,负责将LSTM和GRU层学到的综合特征映射到最终的分类类别上。针对UCI HAR数据集,这是一个6分类的输出层;针对另一个提及的ISPL数据集,则为3分类。
为了处理CNN输出的特征序列以适应LSTM的输入要求,研究使用了Keras的 TimeDistributed 包装器。具体而言,输入信号首先被重塑为(None, 4, 32, 9)的形状,然后使用TimeDistributed包装一维卷积层及其后的池化、展平操作。这样做的目的是在保留数据时间步结构的前提下,对每个时间步的子序列独立应用卷积特征提取,从而将提取到的特征序列(而非单个特征向量)馈送给LSTM层。这是混合时空模型中的一种常见技术。
第三环节:实验设置与性能指标 1. 实验配置:模型在UCI HAR数据集上进行训练和测试。研究将所提出的CNN-LSTM-GRU模型与一系列基线模型进行了全面比较,包括传统机器学习模型(K-最近邻K-Nearest Neighbors, KNN、随机森林Random Forest、支持向量机SVM、极限梯度提升XGBoost)和深度学习模型(单独的LSTM、Extra Trees Classifier)。 2. 性能指标:采用四种标准分类指标评估模型性能: * 精确率(Precision):模型预测为正类的样本中,真实为正类的比例。用于衡量预测的准确性。 * 召回率(Recall):真实为正类的样本中,被模型正确预测为正类的比例。用于衡量查全率。 * F1分数(F1-score):精确率和召回率的调和平均数,是衡量模型精确性与稳健性的综合指标。 * 准确率(Accuracy):所有预测正确的样本占总样本的比例。
第四环节:性能分析与结果 研究对各个模型在UCI HAR数据集上的表现进行了详尽的量化比较,结果如下: * 传统机器学习模型:KNN准确率为85%,XGBoost为86%,随机森林为86.3%,SVM为80%。这些模型的表现参差不齐,但均未超过87%。 * 深度学习基线模型:单独的LSTM模型取得了87%的准确率,表现优于所有传统机器学习模型,凸显了循环神经网络在时序活动识别任务上的优势。 * 本研究提出的CNN-LSTM-GRU模型:该混合模型取得了压倒性的最佳性能,准确率高达91.8%。同时,其精确率为91.7%,召回率为90.25%,F1分数为90.47%。所有关键指标均显著优于其他所有对比模型。
结果的逻辑关系与贡献:预处理步骤为模型提供了干净、结构化的时序输入数据。CNN层成功地从这些原始信号中提取了有效的局部空间/特征模式。随后,LSTM层和GRU层协同工作,对这些局部特征构成的序列进行深层次的时序建模,捕捉活动中的动态变化模式。最终的分类结果(91.8%的准确率)有力地证明了这种“CNN(空间特征提取)+ LSTM/GRU(时序建模)”混合架构的有效性。这一结果不仅验证了模型设计的前瞻性,也直接支撑了研究的核心结论——该混合模型在HAR任务上具有卓越的性能。
三、 研究的主要结论与价值 本研究得出结论:所提出的CNN-LSTM-GRU混合模型通过结合CNN强大的空间特征提取能力和LSTM/GRU优秀的时序建模能力,能够从原始传感器数据中有效地学习人类活动的空间与时间特征。在公开的UCI HAR基准数据集上,该模型实现了91.8%的准确率,超越了包括传统机器学习方法和单一深度学习模型在内的多种对比模型,证明了其优越性。 科学价值:本研究为HAR领域贡献了一个高效、高性能的混合深度学习架构范本。它系统地验证了将CNN与先进循环网络(LSTM和GRU)相结合在提升识别精度方面的巨大潜力,为后续研究如何更好地融合不同神经网络模块以处理时空序列数据提供了参考和基准。 应用价值:该模型因其高准确率、鲁棒性以及直接从原始数据学习的特性,在实际应用中具有广阔前景。它可以被集成到智能手机、智能手表等便携设备中,用于开发更精准的健康监测应用(如跌倒检测、日常活动量分析)、更智能的人机交互系统、运动表现分析工具以及安防监控系统,从而提升生活质量和安全保障。
四、 研究的亮点 1. 创新的混合架构:研究提出并成功实现了一个结合了1D-CNN、LSTM和GRU的端到端混合模型。这种三层级联结构(空间特征提取 -> 长时序依赖建模 -> 增强时序模式捕捉)是该研究在方法上的核心创新点,旨在更全面地处理HAR任务中的时空信息。 2. 卓越的性能表现:在UCI HAR基准测试中取得91.8%的准确率,这是一个非常具有竞争力的结果,显著超越了文中列出的所有对比基线模型,实证了所提方法的有效性。 3. 详尽的对比实验:研究不仅与KNN、SVM等传统方法对比,还与XGBoost、随机森林以及单独的LSTM等先进模型进行了对比,使得性能优势的论证非常充分和有说服力。 4. 注重工程实践性:研究强调了模型在“无需大量手工特征工程和领域知识”下的有效性,这符合深度学习简化应用流程的趋势,提升了模型的实用性和可推广性。
五、 其他有价值的内容 论文在“背景与相关工作”部分进行了全面的文献综述,涵盖了近年来HAR领域利用CNN、LSTM及其混合模型的主要进展,并引用了多项重要研究成果(如Mutegeki等人的CNN-LSTM工作、Choudhary的自适应批量大小CNN-LSTM模型、Mekruksavanich的多通道CNN-LSTM网络等),为读者清晰地勾勒出了该研究在学术脉络中的位置。此外,作者在结论部分展望了未来工作方向,包括进一步调优超参数(学习率、批大小、正则化)、将模型扩展到更复杂的活动识别任务,以及在更多公开数据集上进行基准测试,显示了研究的延续性和开放性。