视线与头部方向作为社交机器人导航的预测因素

分享自：
视线与头部方向作为社交机器人导航的预测因素

人工智能
信息科学
神经科学与心理学
计算机科学
生命科学
期刊:2021 IEEE International Conference on Robotics and Automation (ICRA 2021)
【点击此处】阅读全文、收藏及针对性提问
该文档属于类型a（单篇原创研究论文报告），以下是针对中国读者的学术报告：
作者及机构：
 本研究由Blake Holman、Abrar Anwar、Akash Singh、Mauricio Tec、Justin Hart和Peter Stone共同完成，作者单位包括美国德克萨斯大学奥斯汀分校的计算机科学系（Department of Computer Science）、统计学与数据科学系（Department of Statistics and Data Science），以及索尼人工智能（Sony AI）。论文发表于2021年5月31日至6月4日举办的IEEE国际机器人与自动化会议（ICRA 2021），标题为《Watch Where You’re Going! Gaze and Head Orientation as Predictors for Social Robot Navigation》。
学术背景研究领域与动机：
 研究聚焦于社会导航（social navigation）领域，旨在解决移动机器人在人机共存环境中安全、自然导航的问题。人类通过头部朝向（head orientation）和视线（gaze）等非语言信号协调行走意图，而现有机器人导航系统未能充分模拟这种能力。尽管Unhelkar等学者已证明头部朝向可预测人类行走目标，但视线作为更早的意图信号尚未被量化研究。本研究通过虚拟现实（Virtual Reality, VR）技术，首次系统分析了视线与头部朝向的时序关系及其预测能力，为机器人导航算法设计提供理论依据。
科学问题与目标：
 1. 验证假设H1：视线数据比头部朝向、位置、速度等特征能更早预测人类行走目标；
 2. 验证假设H2：视线方向变化先于头部朝向变化；
 3. 开发基于多模态数据（位置、速度、头部/视线偏航角）的行走目标分类器。
研究流程与方法实验设计：
 1. 虚拟环境搭建：
 - 使用Unity引擎构建实验场景，包含起点（Start）、中间点（A）及5个水平排列的终点目标（1–5），间距1米（图1）。
 - 参与者需先步行至中间点A，再随机选择目标1–5完成行走任务，共25次试验（每个目标5次）。
硬件与数据采集：
设备：HTC Vive Pro Eye头显（集成Tobii眼动仪）、Vive追踪器（腰部定位）、Vive控制器（试验触发）。
 
采样频率：位置数据60Hz，眼动数据通过Tobii SDK同步采集。
 
变量定义：头部偏航角（θhead）、视线偏航角（θgaze）、注视点水平坐标（γx）、归一化速度（vx）。
 
参与者与流程：
受COVID-19限制，仅招募7名实验室成员（6男1女，平均年龄22.7岁），均具备正常或矫正视力。
 
试验中，语音指令提示目标编号，参与者通过控制器触发试验并完成行走，数据自动记录。
 
数据分析方法：
 1. 重复测量方差分析（ANOVA）：
 - 在时空域（空间距离/时间百分比）离散化后，建立线性混合效应模型，固定效应为目标编号，随机效应为参与者个体差异。
 - 通过Tukey检验（家族错误率1%）比较不同目标的信号差异出现时间，辅以自助法（bootstrap）估计置信区间。
预测模型：
 多元高斯时间序列分类器：基于贝叶斯定理，最大化轨迹片段的条件概率（公式2-3），输入特征包括位置、速度、θhead、θgaze、γx。
 
交叉验证：因样本量小，采用留一法（leave-one-out）评估模型性能。
 
主要结果时序与空间预测能力：
视线（θgaze）在空间域中比头部朝向早0.22米（1.1米 vs 1.33米）、在时间域早6.6%（4.09% vs 4.75%）显示出全目标区分性（图5）。
 
注视点坐标（γx）同样早于其他信号，支持视线作为优先预测指标。
 
分类器性能：
仅使用θgaze时，模型在轨迹完成34%时达到95%准确率，而θhead需41.3%（图6）。
 
早期阶段（33%完成度），θgaze准确率（94.86%±1.67）显著高于θhead（88.57%±2.4）（p=0.007）。
 
视线与头部朝向时序关系：
参与者先通过视线锁定目标，再调整头部朝向，验证了H2假设（图4）。
 
结论与价值科学意义：
 1. 首次通过高精度VR实验量化视线对人类行走意图的预测优势，填补了现有文献中缺乏统计证据的空白。
 2. 提出视线作为机器人导航算法的早期意图识别特征，可提升人机交互流畅性。
应用价值：
 - 为服务机器人、仓储AGV等场景提供算法优化方向，例如通过实时眼动追踪提前避障。
 - 虚拟现实实验范式为后续研究提供低成本、高可控性的方法参考。
研究亮点技术创新：
结合消费级VR设备（HTC Vive Pro Eye）与专业眼动追踪，实现高精度多模态数据同步采集。
 
开发轻量级高斯分类器，兼容实时机器人系统部署需求。
 
理论贡献：
证实“视线先于头部运动”的直觉假设，推动社会导航理论完善。
 
提出时空域双维度分析框架，增强实验结果的可解释性。
 
局限性：
样本量受疫情影响较小，需后续扩大验证。
 
虚拟环境与真实场景的感知差异未完全消除。
 
其他价值：
 论文附录详细公开了实验代码与数据处理流程（GitHub未提及但可联系作者获取），促进研究复现。此外，团队获NSF、ONR等多项基金支持，体现研究的工程应用潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问