一种基于混合CNN-LSTM深度学习模型的人类活动识别方法

分享自：
一种基于混合CNN-LSTM深度学习模型的人类活动识别方法

期刊:International Journal of Scientific Research in Computer Science and Engineering
基于深度学习CNN-LSTM混合模型的人体活动识别研究学术报告
由Damilola Akinola（第一作者兼通讯作者，单位：美国鲍伊州立大学管理信息系统系）、Adenike Oluyemisi Oyedemi（单位：尼日利亚伊莱沙大学计算机科学系）以及Micheal Olalekan Ajinaja（单位：尼日利亚联邦伊莱奥卢吉理工学院计算机科学系）共同完成的题为“A Deep Learning-Based Hybrid CNN-LSTM Model for Human Activity Recognition”的研究论文，于2024年12月发表在国际期刊 International Journal of Scientific Research in Computer Science and Engineering (IJSRCSE) 第12卷第6期上。本报告旨在向国内学术界同仁详细、系统地介绍这项关于人体活动识别（Human Activity Recognition, HAR）的最新研究工作。
一、 研究的学术背景与目标
人体活动识别是计算机科学与人工智能领域，特别是普适计算、健康信息学和人机交互方向的一个核心研究课题。其核心目标是通过分析来自加速度计、陀螺仪等传感器或摄像设备采集的数据，自动识别和分类人体所执行的各种物理活动（如行走、跑步、上下楼梯等）。HAR技术具有广阔的应用前景，包括远程健康监测、个性化健身指导、智能家居环境自适应以及工业环境下的工人安全监控等。然而，人体活动的复杂多变性、传感器数据的高维时序特性，给准确、鲁棒的识别带来了巨大挑战。
传统的人体活动识别方法多依赖于支持向量机（SVM）、决策树（DT）等机器学习模型，这些方法虽然在早期研究中取得了一定成功，但其性能严重依赖于手工设计的特征工程。这不仅限制了模型的可扩展性，也难以泛化到不同的数据集和活动类型。随着深度学习的兴起，卷积神经网络（CNN）和循环神经网络（RNN）等模型因其强大的自动特征提取能力而被引入HAR领域。CNN擅长从图像或结构化数据中提取空间特征（Spatial Features），而RNN及其改进型长短期记忆网络（LSTM）则专精于捕捉数据序列中的时序依赖（Temporal Dependencies）。然而，单一的CNN模型难以有效建模活动数据中的时间动态变化；而单一的LSTM模型则在处理多变量传感器数据的空间相关性时效率不高。
因此，近年来，结合CNN与LSTM优势的混合模型（Hybrid Model）成为HAR研究的前沿方向。已有的研究工作证明了此类架构的潜力，但在如何针对HAR任务中常见的多元时序数据进行优化、如何处理类别不平衡以及如何提升模型在复杂活动序列上的鲁棒性等方面，仍存在进一步探索的空间。
基于上述背景，本研究的主要目标是：开发一种新型的混合CNN-LSTM模型，以克服单一模型的局限性。具体而言，该模型旨在利用CNN自动提取传感器数据中蕴含的、区分不同活动的空间模式（如不同身体部位运动的相关性），同时利用LSTM层来学习这些空间特征随时间演变的规律，从而实现对包含空间与时间信息的复杂人体活动进行高精度分类。研究团队选用公开的UCI HAR数据集作为基准，以验证所提模型的有效性。最终目标是通过优化混合架构，提升分类准确率，并确保模型对多种活动类型均具有稳健的性能，为HAR在真实场景中的应用提供更可靠的技术基础。
二、 研究的详细工作流程
本研究的工作流程系统而完整，涵盖了从数据准备、预处理、模型构建到最终评估的全过程，主要包括以下四个核心环节：
第一环节：数据来源与划分 研究采用的数据集是HAR领域广泛使用的公开基准数据集——UCI Human Activity Recognition Dataset。该数据集采集自30名年龄在19至48岁之间的志愿者，他们在腰间佩戴三星Galaxy S II智能手机，执行六项预设的日常活动：行走、上楼梯、下楼梯、坐着、站立、躺下。手机内置的加速度计和陀螺仪以50Hz的频率同步采集三轴线性加速度和三轴角速度数据。为确保数据标签的准确性，整个采集过程辅以视频录像，并进行了人工标注。在数据使用前，研究团队将整个数据集随机划分为训练集和测试集，比例分别为70%和30%，这是机器学习中标准的评估设置，旨在用独立的数据评估模型的泛化能力。
第二环节：数据预处理与探索性数据分析 在将数据输入模型之前，进行了细致的预处理和清洗。原始传感器数据本身已经过预滤波处理以降低噪声。原始数据被分割为重叠的滑动窗口，每个窗口时长为2.56秒（对应128个采样点），相邻窗口重叠50%，这有助于捕捉活动的连续性和过渡阶段。研究团队还特别检查了数据质量，图1的结果显示，训练集和测试集中均未发现重复样本或无效值（如NaN或Null），这确保了模型训练和评估基于一个干净、可靠的数据基础，避免了由数据质量问题引入的偏差。
为了更深入地理解数据分布，研究进行了探索性数据分析。图2展示了训练集中不同用户贡献的各类活动数据分布。总体来看，各项活动在不同用户间分布相对均衡，但个别用户的某些活动数据量存在波动，这反映了真实世界中用户行为的个体差异性。图4进一步显示了训练集内各活动类别的总体样本数量，分布较为平衡，这有利于模型公平地学习所有活动。然而，图3和图5对测试集的分布分析揭示了一些潜在挑战：测试集中某些活动（如“坐着”和“躺着”）在部分用户上呈现过代表性，而“下楼梯”等活动则相对较少。这种测试集上的轻微不均衡可能影响模型评估的公平性，需要后续在评估指标选择上予以考虑。这些分析为理解模型性能的潜在影响因素提供了重要背景。
第三环节：混合CNN-LSTM模型的架构设计与构建 这是本研究方法学的核心创新部分。研究团队提出的混合模型并非简单串联CNN和LSTM，而是经过精心设计的层次化架构，其工作流清晰地展示在图5中。
输入层：接收预处理后的多元时序传感器数据，其维度可表示为 ( R^{n \times m} )，其中 ( n ) 是时间步长（每个窗口128个点），( m ) 是传感器通道数（加速度计和陀螺仪的各轴数据）。
CNN空间特征提取模块：此部分由若干卷积层和池化层构成。卷积层使用数学公式（1）定义的卷积操作，通过滑动卷积核（Kernel）在传感器数据上提取局部空间模式。例如，它可以学习到同一时刻下，x、y、z轴加速度之间的协同关系，这种关系对于区分“站立”和“行走”至关重要。卷积后，通过如公式（2）所示的ReLU激活函数引入非线性。随后，池化层（如公式（3）所示的Max-Pooling）对特征图进行下采样，保留最显著的特征同时降低计算复杂度。经过CNN模块处理后，原始的高维时序数据被转换为一组强调空间结构的特征序列。
Flatten层：将CNN模块输出的多维特征图“展平”为一维向量序列，以适配后续LSTM层的输入要求。
LSTM时序依赖建模模块：展平后的特征序列被送入LSTM层。LSTM单元通过其内部的门控机制（输入门、遗忘门、输出门，如公式（5）-（10）所示）选择性地记忆和遗忘信息，从而有效捕捉活动特征在时间维度上的长期依赖关系。例如，从上楼动作的起始、加速到结束，其传感器特征模式是随时间演变的序列，LSTM正是为此类建模而设计。该模块的输出是编码了完整时序上下文信息的最终隐藏状态。
全连接分类层与Softmax输出层：最后一个时间步的LSTM隐藏状态被传递至全连接层，进一步整合高级特征。最终，通过如公式（4）或（12）所示的Softmax函数，将网络输出转化为六类活动的概率分布，完成分类任务。
整个模型采用Python语言，借助TensorFlow和Keras等深度学习库实现。该架构的关键优势在于其协同工作机制：CNN作为“特征工程师”，从原始数据中自动化地提取出具有判别力的空间表示；LSTM则作为“序列分析师”，对这些特征在时间轴上的动态变化进行建模。两者结合，形成了对HAR任务更全面、更具表达能力的特征表示。
第四环节：模型评估与分析 在模型训练完成后，研究团队在独立的测试集上对其性能进行了全面评估，主要使用了分类报告和混淆矩阵两种工具。
分类报告（表1） 提供了精确率（Precision）、召回率（Recall）、F1-score等细粒度指标。该混合模型取得了94% 的整体准确率，其宏平均和加权平均的精确率、召回率、F1-score也均为94%。这证明了模型在整体上具有优异且均衡的性能。具体到各个活动类别，模型表现存在差异：“躺着”（Class 5）和“行走”（Class 0）的分类近乎完美，F1-score分别达到1.00和0.99；而“坐着”（Class 3）和“站立”（Class 4）的F1-score相对较低，分别为0.85和0.87。支持度数据显示，各类别样本数量虽有差异但尚属平衡，说明性能差异主要源于活动本身的相似性而非样本量。
混淆矩阵（图6） 直观地揭示了模型的具体错误模式。对角线上的高亮区域证实了模型对大多数活动的准确识别。主要的混淆发生在： * “坐着”与“站立”之间：有71个“坐着”的实例被误判为“站立”。这很可能是因为这两种静态姿势的传感器信号（尤其是去除重力后的身体加速度）非常相似，区分难度大。 * “上楼梯”与“下楼梯”之间：各有24个左右的实例相互混淆。这反映了这两个动态活动在运动模式上具有高度的对称性和相似性。
这些结果不仅量化了模型的性能，更重要的是，它们精准地指出了模型当前的“短板”和未来需要重点改进的方向。
三、 研究的主要结果及其分析
研究工作的每一步结果都逻辑严密地导向了最终结论。
在数据预处理阶段，确认了UCI HAR数据集的高质量与适用性。无重复和无效值的结果，为后续模型性能的可靠性奠定了基础。对数据分布的探索性分析则预先揭示了测试集中可能存在的类别分布不均匀问题，这提醒研究者在解读整体94%的准确率时，需要结合各类别的F1-score进行综合判断，也说明了为何需要采用宏平均和加权平均等多维度评估指标。
模型构建与训练的核心成果是成功实现并优化了所提出的混合CNN-LSTM架构。该模型并非首创概念，但本研究通过具体的实现、调优并在标准数据集上验证，证明了这种架构针对HAR任务的有效性。CNN层成功地从( R^{n \times m})的原始数据中提取出空间特征，LSTM层则有效地对这些特征的时序演变进行了建模。这种分工协作的特征学习方式是模型取得高精度的关键。
在评估阶段，94%的整体准确率和均衡的宏/加权平均指标是本研究最直接、最重要的量化成果。这一结果显著高于许多依赖手工特征的机器学习方法，也与近年来一些先进的深度学习模型性能相当甚至更优，有力地支撑了“混合模型能有效提升HAR性能”的核心论点。更重要的是，详细的分类报告和混淆矩阵提供了深度的性能诊断。高精度的类别（如行走、躺着）表明模型对于具有鲜明空间-时间模式的活动识别能力极强。而发生在“坐/站”、“上/下楼梯”之间的混淆，则并非模型的失败，而是客观、真实地反映了这些活动在传感器信号层面的高相似性，这是HAR领域公认的难点。这些具体的错误案例为后续研究指明了方向，例如可以引入注意力机制来聚焦关键运动阶段，或者融合额外的传感器模态（如心率、环境声音）来提供更多判别信息。
四、 研究的结论、意义与亮点
本研究的结论明确：所提出的混合CNN-LSTM模型在UCI HAR数据集上表现卓越，整体准确率达到94%，有效克服了单一CNN或LSTM模型在捕捉时空特征方面的局限性。该模型通过CNN自动提取空间特征，并结合LSTM建模时序依赖，为人体活动识别提供了一个准确、鲁棒且端到端的解决方案。
这项研究的价值体现在科学和应用两个层面： * 科学价值：它进一步验证并细化了混合深度学习架构在HAR任务上的有效性。研究不仅给出了最终的精度数字，还通过详尽的错误分析，深化了对模型行为以及不同活动类别间混淆原因的理解，为领域内的模型解释性研究提供了素材。论文中清晰的数学公式描述和架构图，也为其他研究者复现和在此基础上改进工作提供了便利。 * 应用价值：高精度的活动识别模型可直接应用于健康监测系统（如监测老年人日常活动与跌倒）、智能穿戴设备（提供精准的运动分析）、以及沉浸式人机交互等领域。论文最后提出的未来方向，如模型轻量化以部署于边缘设备（智能手机），更是紧扣实际应用的需求，具有明确的现实指导意义。
本研究的亮点突出表现在以下几个方面： 1. 问题导向的针对性架构设计：研究并非简单地堆叠流行网络层，而是针对HAR数据兼具空间（多传感器轴）与时间（序列）维度的本质特点，有理有据地设计了CNN与LSTM相结合的混合架构，实现了优势互补。 2. 全面而深入的评估体系：研究没有止步于报告一个总体准确率，而是综合运用了分类报告（含精确率、召回率、F1-score、支持度、宏平均、加权平均）和混淆矩阵，对模型性能进行了多层次、全方位的评估和可解释性分析，使结论非常扎实。 3. 清晰的工作流程与可复现性：从数据准备、探索分析、模型构建到结果评估，整个研究流程表述清晰、逻辑连贯。对数据预处理步骤、模型输入输出维度的详细说明，以及对公开数据集和编程工具（Python, TensorFlow）的明确标注，都极大地增强了研究的可复现性和透明度。 4. 承前启后的研究定位：论文在“相关工作”部分系统回顾了从传统机器学习到现代深度学习方法，并指出了它们各自的局限，从而自然引出本工作的创新点。在结论部分，又诚恳地指出了当前模型的不足（如对相似活动的区分度有待提高）并提出了切实可行的未来研究方向（如引入注意力机制、多模态融合、模型轻量化），体现了学术研究的延续性和发展性。
这项由Damilola Akinola等人完成的研究，是一项结构严谨、方法合理、分析深入、结论扎实的HAR领域实证研究工作。它成功展示了一种有效的混合深度学习模型，并为后续更复杂、更实用的活动识别系统开发奠定了良好的基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问