这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Zhiming Hu(北京大学计算机学院)、Andreas Bulling(德国斯图加特大学)、Sheng Li(北京大学计算机学院,IEEE会员)和Guoping Wang(北京大学计算机学院)合作完成,发表于IEEE Transactions on Visualization and Computer Graphics期刊,2023年4月第29卷第4期。研究得到中国国家重点研发计划(2017YFB1002700)和国家自然科学基金(61632003、61631001、62172013)的支持。
科学领域:本研究属于虚拟现实(VR)与人机交互(HCI)的交叉领域,聚焦于视觉注意力(visual attention)与任务识别(task recognition)。
研究动机:
- 现有VR研究多关注单一任务下的视觉注意力分析(如自由观看或视觉搜索),而忽略了不同任务间的差异性。
- 传统任务识别方法基于2D环境且仅依赖眼动数据,而VR中头部运动可能蕴含额外认知信息。
目标:
1. 通过多任务数据集揭示VR中眼动和头部运动的差异模式;
2. 提出结合眼动和头部运动的深度学习模型EHTask,提升任务识别准确率。
研究对象:30名参与者(18男12女,平均年龄24.5岁),每人观看15段360度VR视频,每段视频需完成4项任务:
1. 自由观看(Free Viewing):无特定指令;
2. 视觉搜索(Visual Search):计数场景中的几何形状物体;
3. 显著性评估(Saliency):判断场景上下半区的视觉显著性;
4. 目标追踪(Track):持续注视最近的运动物体。
设备:HTC Vive头显(搭载7invensun眼动仪,采样率100Hz,精度0.5°),通过Unity3D记录眼动(Eye-in-Head, EIH)和头部运动(Head Orientation)数据。
数据集:共360条记录(30人×3视频×4任务),每条记录包含150秒的EIH、Gaze-in-World(GIW)和头部运动数据。
眼动特征:
- 注视(Fixation):最小持续时间150ms,最大分散度1°;
- 扫视(Saccade):计算幅度、频率和持续时间。
头部运动特征:水平/垂直角速度、加速度及速度分布离散度。
关键发现:
- 不同任务的注视持续时间、扫视幅度、头部速度均存在显著差异(ANOVA检验,p<0.01)。例如,追踪任务的注视持续时间最长(431.7ms),而显著性任务的扫视幅度最大(8.56°)。
- 眼-头协调(Eye-Head Coordination):通过Spearman相关系数分析,发现任务类型显著影响眼动与头部运动的同步性(如追踪任务的相关系数最低)。
架构:
1. EIH模块:3层1D CNN(每层16通道,核大小3)提取眼动特征,后接双向GRU(隐藏层64单元);
2. GIW模块:同EIH模块,处理全局注视数据;
3. 头部模块:提取头部速度特征;
4. 任务识别模块:2层全连接层(64神经元)整合特征,Softmax输出任务概率。
训练:10秒时间窗口,25Hz采样率,交叉熵损失函数,Adam优化器(初始学习率1e-2,指数衰减率0.75)。
科学意义:
- 首次系统量化了VR多任务下眼动与头部运动的差异,填补了视觉注意力研究的空白;
- 提出EHTask模型,为VR自适应系统(如动态渲染、 gaze-contingent交互)提供技术基础。
应用价值:
- 可扩展至增强现实(AR)、混合现实(MR)中的意图识别;
- 开源数据集与模型促进后续研究(代码与数据发布于https://cranehzm.github.io/ehtask)。
该研究通过严谨的实验设计和深度学习模型,为VR环境下的用户行为分析提供了新范式,其方法论和结论对HCI、心理学及VR内容设计均有深远影响。