分享自:

基于LLM的环境传感器多人活动识别研究

期刊:the 30th international conference on parallel and distributed systemsDOI:hal-04619086v2

基于大语言模型的环境传感器多人活动识别研究:LAHAR框架的突破与应用

作者及机构
本研究的核心团队由Xi Chen(法国Orange Innovation及格勒诺布尔阿尔卑斯大学)、Julien Cumin(Orange Innovation)、Fano Ramparany(Orange Innovation)和Dominique Vouvreydaz(格勒诺布尔阿尔卑斯大学)组成,成果发表于2024年10月的The 30th International Conference on Parallel and Distributed Systems


学术背景

研究领域与动机
人类活动识别(Human Activity Recognition, HAR)是智能家居、医疗监护及安全监控的核心技术。传统HAR方法依赖摄像头或可穿戴设备,但存在隐私侵犯或用户体验差的问题。环境传感器(Ambient Sensor)因其非侵入性重新成为研究热点,但其应用面临五大挑战:
1. 数据稀缺:实验环境搭建成本高,个人数据敏感;
2. 模型泛化性差:传感器配置和活动模式差异导致跨场景迁移困难;
3. 上下文整合不足:传感器数据简单,需结合位置、时间等上下文信息;
4. 多人场景复杂性:多用户事件序列混合导致识别困难;
5. 可解释性缺失:传统深度学习模型推理过程不透明。

研究目标
本研究提出LAHAR框架(LLM-powered Ambient HAR),首次利用大语言模型(LLM)解决多人环境下的HAR问题,通过提示工程(Prompt Engineering)实现用户分离和动作级事件描述,提升时间分辨率与可解释性。


研究方法与流程

LAHAR框架分为三阶段,以ARAS数据集(含两栋真实住宅的30天多用户传感器数据)为验证对象:

1. 数据到文本对齐(Data-to-Text Alignment)

  • 数据预处理:将传感器原始读数转化为事件三元组<时间, 传感器ID, 状态变化>,剔除高频冗余事件。
  • 信息结构化:将相邻的传感器开关事件配对为JSON格式,包含起止时间、位置及事件描述(如{"start": ts, "end": te, "event": "sensor on/off", "location": l}),并按时间排序输入LLM。

2. 动作级用户分离与描述生成

  • 上下文整合:通过提示词向LLM注入环境背景(如房屋布局、传感器功能、用户习惯)。
  • 事件分配逻辑
    • 传感器相关性估计:LLM基于注意力机制合并关联事件(如连续触发的厕所与浴室传感器);
    • 用户状态推理:通过链式思维(Chain-of-Thought)提示,LLM结合用户历史状态(如“用户A刚离开床”)分配事件。
  • 输出格式:生成JSON格式的动作描述,包含用户ID、位置及自然语言动作解释(如“用户B在22:15使用浴室”)。

3. 活动级推理(Activity-Level Reasoning)

  • 输入重组:将各用户的动作描述按时间分块(每块15条),输入LLM进行高层活动推理。
  • 上下文依赖:结合活动列表(如“早餐准备”“睡觉”)和用户日程(如“7:00-8:00为典型早餐时间”),LLM输出带时间戳的活动序列。
  • 关键设计:通过示例提示(Few-shot Learning)解决非直接感知活动(如“看电视”需多组事件联合推理)。

技术亮点
- 分块处理:事件块大小(n=20)和活动块大小(m=15)平衡上下文长度与LLM指令遵循能力;
- GPT-4-32k模型:选用该模型处理长序列,温度参数设为0以减少随机性。


主要结果

1. 单人场景验证

  • 与SOTA对比:在9类活动识别任务中,LAHAR以秒级分辨率达到与Gao等(5分钟分辨率)相当的F1分数(90.39% vs 95.60%),但细节更丰富(图4)。
  • 扩展实验:在17类活动场景中,LAHAR的加权平均F1达76.95%(House A)和93.08%(House B)。主要误差源于非常规时间活动(如House A用户午餐时间延迟)及连续动作混淆(如“刷牙”与“如厕”合并)。

2. 多人场景性能

  • 定性结果:成功分离混合事件序列(图3),例如同时段内区分用户A“准备晚餐”与用户B“洗澡”。
  • 定量分析:多人场景F1分数(House A: 86.49%, House B: 91.91%)接近单人场景,证明框架鲁棒性。House A性能提升因多人用餐时间更符合常规。

3. LLM模型影响

GPT-4系列模型表现显著优于GPT-3.5(图6),后者因长上下文处理能力不足导致事件过度合并。但GPT-4各版本间差异较小,表明LAHAR尚未完全挖掘LLM潜力。


结论与价值

科学价值
- 方法论创新:首次将LLM应用于多人环境HAR,提出“细粒度动作→粗粒度活动”两阶段提示工程框架;
- 可解释性突破:自然语言描述增强推理透明度,助力用户信任与系统个性化。

应用前景
- 智能家居:支持隐私安全的多人活动监控;
- 健康护理:精准识别老年人异常行为(如长时间无活动);
- 未来方向:探索LLM微调、多模态数据融合及对话式解释功能。


研究亮点

  1. 跨领域创新:结合环境传感器与LLM的生成-推理能力,解决传统HAR的多人分离难题;
  2. 高分辨率输出:秒级活动预测优于固定时间窗口方法;
  3. 低数据依赖:通过上下文学习(In-Context Learning)减少对标注数据的依赖。

局限与改进
- 依赖预训练LLM:需进一步验证开源模型(如LLaMA)的适用性;
- 场景泛化性:需在更多住宅布局中测试框架迁移能力。

(全文约2300字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com