多模态人机交互研究进展综述
本文由陶建华(中国科学院自动化研究所)、巫英才(浙江大学)、喻纯(清华大学)、翁冬冬(北京理工大学)、李冠君(中国科学院自动化研究所)、韩腾(中国科学院软件研究所)、王运涛(清华大学)、刘斌(中国科学院自动化研究所)共同撰写,发表于《Journal of Image and Graphics》2022年第6期。文章系统梳理了多模态人机交互(Multi-Modal Human-Computer Interaction, MMHCI)领域的发展现状、技术分支及未来趋势,涵盖大数据可视化交互、声场感知交互、混合现实实物交互、可穿戴交互和人机对话交互五大方向。
多模态人机交互旨在通过语音、图像、文本、眼动、触觉等多通道信息实现人与计算机的高效信息交换。随着物联网、人工智能及硬件技术的进步,交互方式已从单一感知通道(如键盘、鼠标)发展为多模态融合模式,在医疗康复、军事仿真、教育等领域展现出广泛应用前景。本文的目标是:(1)总结技术演进脉络;(2)对比国内外研究进展;(3)提出未来研究方向。
观点:沉浸式可视化通过多模态融合(视觉、听觉、触觉)提升数据探索效率。
- 论据:
- 3D可视化设计:Krekhov等(2020)提出的分裂呈现技术(Split Rendering)通过双目视差高亮关键数据点,解决了传统2D散点图的遮挡问题。
- 非视觉辅助:触觉反馈(如振幅映射点云密度)和嗅觉编码(如VisCent系统)增强了数据感知维度。
- 交互模态:基于手势(如光线投射)、注视(眼动追踪)和移动导航(虚拟传送)的交互技术显著提升了用户操作自然性。
观点:声场技术通过动作识别、声源定位和副语音分析实现无接触交互。
- 论据:
- 手势识别:Han等(2017)利用手表麦克风阵列识别手腕动作;FingerSound(Zhang等,2017a)通过超声波解析手指捏合动作。
- 声源定位:毫米级精度的FM-CW(Frequency-Modulated Continuous Wave)技术(Wang和Gollakota,2019)实现了3D空间追踪。
- 语音增强:副语言信息(如停顿、音高)被用于优化对话系统(Goto等,2004)。
观点:实物混合现实(Physical Mixed Reality)通过触觉反馈提升交互真实感。
- 论据:
- 静态触觉:1:1实物道具(如Thor’s Hammer)提供逼真力反馈(Heo等,2018)。
- 动态触觉:无人机(Abtahi等,2019b)和可变形控制器(Pivot,Kovacs等,2020)实现了动态力触觉代理。
- 产业应用:Facebook的Tasbi腕带和Microsoft的Pivot展示了商业化潜力。
观点:皮肤电子技术和手势识别是可穿戴交互的核心。
- 论据:
- 手势输入:EMG(肌电信号)和Soli雷达(Lien等,2016)支持高精度手势追踪。
- 皮肤界面:导电墨水纹身(Groeger和Steimle,2017)和投影触控(Harrison等,2011)拓展了交互空间。
观点:多模态融合(语音、情感、文本)是提升对话质量的关键。
- 论据:
- 语音识别:流式模型(如Conformer-Transducer)和非自回归模型(Chi等,2021)降低了延迟。
- 情感识别:副语言特征(如音高、停顿)被用于情感标签生成。
本文为多模态人机交互领域的里程碑式综述,兼具理论深度与实践指导意义,值得研究者与产业界人士深入研读。