Ke Li等人领衔,来自Cornell University和University of Edinburgh的研究团队,在即将发表于ACM MobiCom ’24(会议时间为2024年9月30日至10月4日)的论文中,提出了GazeTrak,这是第一个基于声学感知的眼动追踪眼镜系统。该研究以低功耗、高灵活性和高用户舒适性为核心,深入研究了一种新型的眼动追踪方式,对现有以摄像头为核心的眼动追踪技术提出了极具竞争力的改进方案。
传统的眼动追踪技术多依赖摄像头(camera-based eye tracking technologies),其准确性虽高,但同时存在较大的能耗问题,这尤其无法满足智能眼镜等可穿戴设备因电池容量有限而产生的需求。例如,一款顶尖的眼动追踪设备Tobii Pro Glasses 3,尽管配备了3400mAh的扩展电池,其续航时间只有1.75小时,而在普通Google Glass(570mAh电池)上仅能运行18分钟。因此,这种技术在日常生活中长期应用场景的推广受到了严重限制。此外,传统摄像头技术可能面临隐私问题,难以较好地保护用户数据。为了解决这些问题,团队研发了GazeTrak,旨在提供一个低功耗、轻便且高度隐私保护的替代方案。
研究的目的是设计和实现一种基于声学感知(acoustic sensing)的眼动追踪系统,通过结构简单的硬件配置和深度学习算法,实时、连续地跟踪用户的视线轨迹。项目的主要技术原理是:由于眼球并非完美球形,其旋转会带动周边皮肤发生独特的伸展和形变特征。通过计算这些形变所产生的声波反射信号(称为echo profiles,回波特征),可以捕捉眼球运动信息并推算出注视点的位置。
系统硬件采用了1个扬声器和4个麦克风,分别安装在眼镜框两侧。扬声器发出经过编码的频率调制连续波(Frequency-Modulated Continuous Wave, FMCW)超声信号(频率高于18kHz,超出人类听觉范围),反射信号由麦克风捕获并传输至数据处理单元,通过深度学习模型(基于ResNet-18框架)实时预测视线点。
硬件设计与优化
研究团队设计并迭代了硬件原型,包括使用Teensy 4.1开发板作为主控MCU,以及配套的音频处理芯片SGTL5000、MEMS麦克风ICS-43434和小型扬声器OWR-05049T-38D。通过对FMCW信号进行定制化设置(工作频段18-21kHz,对应的ADC采样率为50kHz,帧长度为600样本),确保信号采集的可靠性和功耗最小化。硬件的最终原型重量仅为44.2g,大幅优于传统的摄像头眼镜(如Tobii Pro Glasses 3的重量达388.5g)。
数据采集与建模
开发了一套独立的注视点标定方案:参与者通过观看笔记本屏幕上的随机移动红点,并注视指定位置,以此标定模型训练所需的地面真值(ground truth)。参与研究的20名被试(男女各10人,平均22岁),分别参与了12个实验Session,每个Session约持续200秒,其中数据分为10个Session用于训练,2个Session用于测试。同时,实验中模拟了用户眼镜重新佩戴(remount)等实际使用场景,以验证系统的稳定性。
信号处理与深度学习算法
声波反射信号被转换为回波特征(echo profiles),这些特征被输入到基于ResNet-18的深度学习模型中,用于预测屏幕上的注视点坐标(即(x, y)坐标)。该模型采用自定义深度学习流水线,通过滑动窗口技术和数据增强处理优化算法性能。此外,研究中还引入了轻量化模型(如MobileNet),并在低功耗CNN加速器MAX78002上进行了优化和实时推理实验。
数据分析与精度验证
测试阶段采用了平均注视角误差(Mean Gaze Angular Error, MGAE)作为性能评价指标。实验数据在不同环境、眼镜框风格及佩戴稳定性影响下进行了广泛测试。
眼动追踪精度
功耗与续航
GazeTrak的平均功耗为287.9mW,相比于Topii Pro Glasses 3降低了95%以上,后者功耗高达10.7W。若配备同等容量电池,GazeTrak可将续航时间从1.75小时(Topii Pro)延长到38.5小时。
环境适应性
系统在多种现实场景下(如街道、咖啡店及背景音乐环境)表现稳定,噪声并未对追踪性能造成显著影响。
不同眼镜框的适应性
系统在小型眼镜上的性能与原始框架几乎持平(MGAE=5.3°),在大型眼镜上略有下降(MGAE=6.1°)。
本研究成功展示了首个基于声学感知的眼动追踪眼镜系统,突破了传统摄像头方案功耗高、设备重、续航短等局限性,提出了一种准确性适中但极具应用潜力的解决方案。GazeTrak不仅可以应用于低精度容忍的领域,如增强现实(AR)交互,还为健康状态监测等连续眼动追踪场景提供了可能性。
研究的科学价值在于开发了基于声学的创新方法,优化硬件和算法效率,推动了低功耗可穿戴眼动追踪设备的研发;其应用价值则在于为隐私保护和数据安全提供了更可靠的实现方式。
研究团队计划进一步优化模型性能,减少用户训练数据需求,并开发更加集成化的硬件原型,直接搭载于MAX78002。此外,未来目标还包括扩大训练样本多样性、提升本系统在真实场景中的适用性并探索非线性输出校正的可能性,为落地应用打下基础。