分享自:

基于眼动和头部运动的沉浸式虚拟现实用户任务识别

期刊:IEEE Transactions on Visualization and Computer GraphicsDOI:10.1109/tvcg.2021.3138902

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


虚拟现实(VR)中基于眼动和头部运动的用户任务识别研究:EHTask模型

1. 研究作者、机构及发表信息

本研究由Zhiming Hu(北京大学计算机学院)、Andreas Bulling(德国斯图加特大学)、Sheng Li(北京大学计算机学院,IEEE会员)和Guoping Wang(北京大学计算机学院)合作完成,发表于IEEE Transactions on Visualization and Computer Graphics期刊,2023年4月第29卷第4期。研究得到中国国家重点研发计划(2017YFB1002700)和国家自然科学基金(61632003、61631001、62172013)的支持。

2. 学术背景与研究目标

科学领域:本研究属于虚拟现实(VR)与人机交互(HCI)的交叉领域,聚焦于视觉注意力(visual attention)任务识别(task recognition)
研究动机
- 现有VR研究多关注单一任务下的视觉注意力分析(如自由观看或视觉搜索),而忽略了不同任务间的差异性。
- 传统任务识别方法基于2D环境且仅依赖眼动数据,而VR中头部运动可能蕴含额外认知信息。
目标
1. 通过多任务数据集揭示VR中眼动和头部运动的差异模式;
2. 提出结合眼动和头部运动的深度学习模型EHTask,提升任务识别准确率。

3. 研究流程与方法

3.1 数据收集

研究对象:30名参与者(18男12女,平均年龄24.5岁),每人观看15段360度VR视频,每段视频需完成4项任务:
1. 自由观看(Free Viewing):无特定指令;
2. 视觉搜索(Visual Search):计数场景中的几何形状物体;
3. 显著性评估(Saliency):判断场景上下半区的视觉显著性;
4. 目标追踪(Track):持续注视最近的运动物体。
设备:HTC Vive头显(搭载7invensun眼动仪,采样率100Hz,精度0.5°),通过Unity3D记录眼动(Eye-in-Head, EIH)和头部运动(Head Orientation)数据。
数据集:共360条记录(30人×3视频×4任务),每条记录包含150秒的EIH、Gaze-in-World(GIW)和头部运动数据。

3.2 行为模式分析

眼动特征
- 注视(Fixation):最小持续时间150ms,最大分散度1°;
- 扫视(Saccade):计算幅度、频率和持续时间。
头部运动特征:水平/垂直角速度、加速度及速度分布离散度。
关键发现
- 不同任务的注视持续时间、扫视幅度、头部速度均存在显著差异(ANOVA检验,p<0.01)。例如,追踪任务的注视持续时间最长(431.7ms),而显著性任务的扫视幅度最大(8.56°)。
- 眼-头协调(Eye-Head Coordination):通过Spearman相关系数分析,发现任务类型显著影响眼动与头部运动的同步性(如追踪任务的相关系数最低)。

3.3 EHTask模型设计

架构
1. EIH模块:3层1D CNN(每层16通道,核大小3)提取眼动特征,后接双向GRU(隐藏层64单元);
2. GIW模块:同EIH模块,处理全局注视数据;
3. 头部模块:提取头部速度特征;
4. 任务识别模块:2层全连接层(64神经元)整合特征,Softmax输出任务概率。
训练:10秒时间窗口,25Hz采样率,交叉熵损失函数,Adam优化器(初始学习率1e-2,指数衰减率0.75)。

4. 主要结果

4.1 任务识别性能
  • 跨用户评估:EHTask在自有数据集的准确率达84.4%,显著优于传统方法(如Random Forests 62.8%);
  • 跨场景评估:准确率82.1%,验证模型泛化能力;
  • 真实世界数据集(GW Dataset):准确率61.9%,优于基线方法44.1%。
    混淆矩阵:视觉搜索与追踪任务的混淆率最高(11.8%),因两者眼动模式相似;显著性任务识别准确率最高(97.8%)。
4.2 数据驱动发现
  • 头部运动贡献:头部速度在区分自由观看与显著性任务中起关键作用(p<0.01);
  • 时间特征:垂直方向眼动自相关性(Auto-correlation)对任务区分更敏感。

5. 结论与价值

科学意义
- 首次系统量化了VR多任务下眼动与头部运动的差异,填补了视觉注意力研究的空白;
- 提出EHTask模型,为VR自适应系统(如动态渲染、 gaze-contingent交互)提供技术基础。
应用价值
- 可扩展至增强现实(AR)、混合现实(MR)中的意图识别;
- 开源数据集与模型促进后续研究(代码与数据发布于https://cranehzm.github.io/ehtask)。

6. 研究亮点

  1. 多任务数据集:首个包含眼动和头部运动的VR任务数据集;
  2. 多模态融合:首次联合眼动与头部运动特征提升识别准确率;
  3. 跨领域验证:在真实世界数据中保持性能,证明方法普适性。

7. 其他价值

  • 方法学创新:CNN+BiGRU架构兼顾局部与时序特征;
  • 开源贡献:数据集与模型公开推动领域发展。

该研究通过严谨的实验设计和深度学习模型,为VR环境下的用户行为分析提供了新范式,其方法论和结论对HCI、心理学及VR内容设计均有深远影响。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com