基于视频姿态估计的气管内吸痰护理活动识别研究
作者及机构
本研究由Hoang Anh Vy Ngo(第一作者,九州工业大学)、Vu Nguyen Phuong Quynh(北海道大学)等9位作者合作完成,合作机构包括九州工业大学、北海道大学、广岛国际大学等。论文发表于《International Journal of Activity and Behavior Computing》(IJABC)。
学术背景
研究领域与动机
本研究属于医疗护理与计算机视觉交叉领域,聚焦于通过视频姿态估计(pose estimation)技术识别护士执行气管内吸痰(endotracheal suctioning, ETS)时的活动。ETS是重症监护中的高风险操作,易引发出血、感染等并发症。随着家庭医疗的普及,对具备ETS资质人员的需求激增,但现有研究缺乏对护理活动的量化评估方法。因此,作者提出利用视频姿态估计技术,构建自动化活动识别系统,以提升护理质量与安全性。
科学问题与目标
传统活动识别多依赖传感器,但成本高且易干扰护理操作。本研究旨在解决以下问题:
1. 如何在复杂真实场景(如背景干扰、主体出框)下准确提取护士姿态?
2. 如何通过姿态数据分类9类ETS活动(如导管准备、吸痰等)?
最终目标是开发一种低成本、非侵入式的活动识别框架,为护理技能评估提供量化依据。
研究方法与流程
1. 数据采集与预处理
- 研究对象:10名经验护士与12名护理学生,在模拟系统(ESTE-Sim)上执行ETS操作,共录制44段视频(30 FPS,分辨率1920×1080)。
- 活动标注:包含8类ETS活动(如导管准备、临时移除人工气道等)及“其他”类,每段视频按2秒窗口分割,重叠率50%。
2. 姿态估计与后处理
- 算法选择:采用YOLOv7提取17个关键点(如肩、肘、腕等),输出包含坐标与置信度的向量(公式1)。
- 关键挑战与解决方案:
- 背景干扰:提出“躯干长度算法”(公式2),通过加权计算上肢与躯干长度,筛选靠近摄像头的主体。
- 关键点缺失:对短于3秒的缺失段进行插值平滑,避免零值干扰。
3. 特征提取与分类
- 特征工程:
- 空间特征:去除下肢关键点(膝盖、脚踝),计算6个上肢关节角度(图5)。
- 时序特征:通过坐标差分计算关键点速度(公式3-4)。
- 统计特征:提取23项时域特征(如均值、方差)与3项频域特征(如频谱熵)。
- 分类模型:采用随机森林(Random Forest),结合SMOTE(Synthetic Minority Over-sampling Technique)处理数据不平衡问题。
4. 性能评估
- 指标:准确率(Accuracy)与F1分数(公式5-6),对比基线方法(随机选择主体)与后处理方法的效果。
主要结果
1. 姿态估计优化效果
- 后处理方法(主体跟踪+关键点平滑)使准确率从51%提升至54%,F1分数从42%提升至46%。
- 典型案例如文件s06t1,准确率提升12%(72%→84%),F1分数提升20%(62%→82%),因背景干扰消除后关键点稳定性增强(图9)。
分类性能瓶颈
时序分析价值
通过分段识别可获取活动序列,验证操作顺序是否符合安全规范(如吸痰后需重置呼吸机回路)。
结论与价值
1. 科学贡献
- 首次将姿态估计应用于ETS活动识别,提出针对真实场景的后处理算法(主体跟踪+关键点插值)。
- 为护理操作量化评估提供新范式,弥补传感器方案的局限性。
研究亮点
1. 方法创新:躯干长度算法与动态关键点插值策略,有效应对真实场景噪声。
2. 领域突破:填补ETS护理活动识别的研究空白,推动计算机视觉在医疗质控中的应用。
3. 开源价值:实验数据与代码框架可为后续研究提供基准。
局限与展望
当前模型对近距离遮挡敏感,未来需结合多模态数据(如加速度计)提升鲁棒性。此外,3D姿态估计可能提供更丰富的空间信息,值得进一步探索。