人机协作中信任的建模与测量

分享自：
人机协作中信任的建模与测量

期刊:appl. sci.DOI:10.3390/app14051919
关于人机协作中信任建模与测量的研究：一项基于心理生理信号与“检查者游戏”范式的实验报告
本文旨在向学术界介绍一篇聚焦于人机协作（Human-Robot Collaboration, HRC）领域信任问题的原创性实证研究论文。该论文题为《Modelling and measuring trust in human–robot collaboration》，由Erlantz Loizaga、Leire Bastida、Sara Sillaurren、Ana Moya和Nerea Toledo共同完成，其主要研究人员来自西班牙的Tecnalia（巴斯克研究与技术联盟）和巴斯克大学。该研究于2024年2月26日正式发表在开源期刊Applied Sciences（Appl. Sci. 2024, 14, 1919）上，为CC BY许可下的开放获取文章。
一、 学术背景与研究目标 本研究隶属于人机交互与工程心理学交叉领域。随着机器人在工业和日常场景中日益广泛的应用，成功的人机协作不仅依赖于技术性能，更关键地依赖于人类操作者对机器人的信任。信任被普遍认为是促进或阻碍协作，尤其是在信息不确定情境下的核心因素。然而，信任是一个多维度、动态且主观的复杂概念，其定义因学科视角（如社会学、哲学、经济学、心理学等）而异。在人机协作情境下，理解和量化信任面临三大核心挑战：信任的复杂动态性、其内在主观性、以及缺乏历史数据与成熟的实时测量方法。尽管已有研究将信任划分为倾向性信任（dispositional trust）（基于个体固有特质）、情境性信任（situational trust）（基于任务和环境）和习得性信任（learned trust）（基于过往互动经验）等维度，但传统上认为人口统计学因素（如性别、年龄）对倾向性信任有显著影响，且习得性信任的动态演变规律仍需精细刻画。
基于此，本研究设定了三个明确的研究问题：(1) 影响人机协作信任的根本因素有哪些？(2) 是否存在影响信任性质和动态变化的人口统计学或情境变量？(3) 能否利用心理生理信号来测量人机协作中的信任？为此，研究团队设计了一套严谨的实验流程，旨在超越传统的主观问卷法，通过采集多种客观的心理生理信号，深入探究倾向性与习得性信任维度，并探索建立实时信任检测模型的可能性。
二、 详细研究流程与方法 本研究采用实验心理学范式，结合多模态生理信号采集技术，具体流程严谨而系统。
首先，实验概念设计。为精确操控信任刺激并观察其动态变化，研究团队采用了博弈论中“囚徒困境”的一种变体——“检查者游戏（inspection game）。在该实验中，参与者扮演“检查者”，其任务是判断一个虚拟传感器（代表机器人伙伴）提供的关于机器“润滑状态”（良好或不良）的读数是否可信。参与者需基于此读数决定是否遵循默认操作（信任传感器）或进行干预（不信任）。每次决策后，参与者会得知机器的真实状态及其决策后果。整个实验包含120次迭代，其中前20次为学习和熟悉阶段，后100次（分为不同可靠性的阶段）用于正式分析。实验的巧妙之处在于引入了两种隐藏的“实验模型（experimental model）”。两种模型在整个100次迭代中，传感器的总体可信度均为75%，但初始阶段的可靠性不同：模型0 在前20次迭代中表现完美（100%可靠），随后进入一个可靠性仅为50%的“混沌”阶段；模型1 则相反，起始于50%可靠性的混沌阶段，之后进入完美可靠阶段。这一设计旨在精确探究“初始互动经验”对后续信任动态的深远影响。
其次，实验样本。研究共招募了55名参与者，其中51人的数据有效。样本选择考虑到工业工作环境的应用背景，旨在覆盖活跃工作年龄段人群。样本构成依据三个因素进行平衡：性别（男/女）、年龄（40岁以下/40岁以上）和工作角色技术强度（技术性/非技术性）。最终样本在除年龄分组外的大部分类别上保持了较好的平衡。
第三，实验设备与信号采集。为全面捕捉信任相关的心理生理反应，研究使用了多模态传感设备，力求在信号丰富度与实验可行性之间取得平衡。采集的信号包括：1) 脑电图（Electroencephalography, EEG）：使用带有12个干电极的刚性头带，覆盖前额、额极、额叶、顶叶、顶枕叶和枕叶等多个脑区，基于国际10-20系统定位。2) 皮肤电反应（Galvanic Skin Response, GSR）：电极置于非优势手的食指和无名指，测量由交感神经系统活动引起的皮肤导电性变化。3) 呼吸（Respiration, RSP）：通过置于横膈膜高度的弹性带，测量呼吸周期、频率和潮气量变化。4) 瞳孔测量（Pupillometry, PLP）：配备眼动追踪传感器的眼镜，用于记录注视点、眼动以及瞳孔直径变化（可衍生出眨眼频率等参数）。这些信号分别反映了中枢神经系统（EEG）和外围神经系统（GSR, RSP, PLP）的活动，为多角度分析信任状态提供了数据基础。
第四，实验执行流程。实验分为几个标准化的阶段以确保数据质量：1) 参与者接待与准备：介绍实验、获取知情同意、收集人口统计学数据、完成技术信任前测问卷，并帮助参与者熟悉设备和环境。2) 生物校准（Biocalibration）：通过执行一系列放松和兴奋任务，为每位参与者建立其生理信号的个体化基线阈值，以校准设备并最小化个体差异带来的噪声。3) 熟悉阶段：让参与者在知晓传感器性能的情况下进行练习，确保他们完全理解任务和交互界面。4) 正式实验过程：参与者佩戴所有测量设备，在严格控制的环境中完成100次“检查者游戏”迭代，期间持续同步记录所有心理生理信号和决策行为数据。5) 非正式访谈：实验后与参与者进行简短访谈，了解其主观体验、对系统可信度的感知，并排查数据异常（如设备不适）的原因。
第五，数据分析流程。研究对行为数据和生理数据进行了多层次分析。对于行为数据，主要分析了不同人口学分组在“倾向性信任”（前测问卷）和“感知信任”（后测评估）上的差异，并计算了在不同实验阶段参与者对传感器的“信任率”（选择信任的次数/该阶段总迭代数）。统计检验主要采用Mann-Whitney U检验（因数据不满足正态分布）来比较组间差异的显著性。对于心理生理信号，研究重点探索了构建信任检测模型的可能性。他们比较了三种建模策略：1) 通用方法：将所有参与者的所有迭代数据混合，训练一个通用模型。2) 留一法：每次留出一位参与者的数据作为测试集，用其余所有人的数据训练模型，循环直至覆盖所有参与者，结果取平均。3) 个体化方法：为每位参与者单独使用其自身的数据训练一个专属模型。研究团队利用网格搜索（pipeline grid search）优化了多种机器学习算法（如K近邻、支持向量机、随机森林等）的超参数，并最终以F1分数作为模型性能的主要评估指标。此外，还分析了不同心理生理信号特征在通用模型和个体化模型中的贡献频率，以识别具有普适性或个体特异性的关键信任信号。
三、 主要研究结果 实验获得了多项富有启发性的发现，部分结果挑战了传统认知。
关于倾向性信任的影响因素，研究分析了性别、年龄和工作角色对前测信任评分的影响。描述性图表显示，女性参与者和年轻参与者（40岁以下）在70%-80%信任水平上存在一个峰值，而年长参与者（40岁以上）的平均信任水平略高。然而，Mann-Whitney U检验结果显示，这些人口统计学因素之间的差异均未达到统计学显著性水平（p值均大于0.05）。这表明，在本研究关注的工业协作背景下，这些传统的人口统计学变量可能并非决定个体对自动化系统初始信任倾向的关键因素。
关于习得性信任的动态演变，行为数据分析揭示了至关重要的“初始互动效应”。尽管两种实验模型（模型0和模型1）的总体可靠性相同，但参与者在前20次迭代中的不同体验，显著改变了他们后续的信任行为模式。统计检验表明，在传感器工作完美的阶段，起始于混沌模型（模型1）的参与者的信任率显著低于起始于完美模型（模型0）的参与者（p=0.0020）。相反，在传感器工作随机的混沌阶段，模型1参与者的信任率则极显著地高于模型0参与者（p=1.920×10^-9）。这意味着，早期糟糕的互动经验会导致参与者在系统后来表现良好时仍保持较低的信任（难以恢复），而在系统表现不稳定时则表现出更高的信任波动性（更容易不信任）。研究者将此比喻为“信任惯性”，强调了人机协作中“第一印象”对建立长期稳定信任关系的极端重要性。
关于信任的测量与建模，结果凸显了信任的个体化与复杂性。在模型性能上，个体化模型表现最佳，平均F1分数高达0.7661，最高可达0.9219，显著优于通用模型（F1约0.6172）和留一法模型（平均F1约0.6207）。这说明，基于个体数据训练的模型能更精准地捕捉该个体独特的信任相关生理模式。在信号贡献度方面，研究发现了通用模型与个体化模型依赖的生理特征存在明显差异。例如，瞳孔直径变化和呼吸模式等信号在构建个体化模型中贡献巨大，但在通用模型中重要性不高。反之，顶枕叶区域（如PO7, PO8电极）的脑电活动在通用模型中贡献显著，却在多数个体化模型中影响甚微。这暗示可能存在两类信号：一类在人群中有共同反应模式，但对信任变化不够敏感；另一类则具有高度个体特异性，是检测特定个体信任波动的关键指标。
四、 研究结论与意义 本研究成功回应了其提出的核心研究问题。首先，它通过文献综述和实验验证，明确了信任在人机协作中的多维度性（倾向性、情境性、习得性）。其次，研究发现传统人口统计学变量（性别、年龄、职业）对倾向性信任的影响并不显著，建议未来研究应探索更广泛的社会文化变量（如社会地位、教育背景、国籍）的影响。更重要的是，实验强有力地证明了早期互动经验对习得性信任动态轨迹具有决定性影响，即存在显著的“信任惯性”。第三，研究证实了利用多模态心理生理信号（EEG, GSR, RSP, PLP）测量信任的可行性，但特别指出最有效的信任检测模型是个体化的，且关键的生理信号特征因人而异。
该研究的科学价值在于：1) 提供了实证证据，挑战了关于倾向性信任影响因素的固有假设，并精细刻画了习得性信任的动态特性。2) 推动了测量方法创新，展示了结合博弈论范式与多模态生理测量进行信任研究的有效路径。3) 强调了人本化设计，其关于个体化模型优越性的发现，指向了未来自适应人机系统需要具备个性化识别与交互能力。其应用价值则直接关乎工业及其他协作场景：研究提示，在人机系统部署初期，确保机器人表现出高度可靠和可预测的行为至关重要，这能为长期稳定的信任关系奠定基础。同时，开发能够实时监测操作者信任水平变化的系统，可以让机器人在感知到信任下降时自动调整行为（如降低速度、增加安全距离、增强通信透明度），从而主动维持协作效能与安全。
五、 研究亮点与创新 本研究的亮点主要体现在以下几个方面：1) 实验设计的精巧性：通过改造“检查者游戏”并设计两种仅初始顺序不同的实验模型，精准分离并量化了“初始互动经验”这一变量对信任动态的因果性影响，设计巧妙且可控性强。2) 方法学的综合性：超越了单一的主观报告法，同步采集了中枢与外围神经系统的多模态生理信号，并结合先进的数据分析建模技术，为信任的客观、实时测量提供了系统性方案。3) 结论的颠覆性与深度：其关于人口统计学因素影响不显著以及信任高度个体化的发现，对当前人机信任研究的主流观点构成了重要补充和挑战，引导学界关注更微观的个体差异和更宏观的情境文化因素。4) 明确的实践导向：研究结论直接转化为人机系统设计的具体建议（如重视初始交互、开发个性化自适应系统），具有明确的工程应用指导意义。
六、 其他有价值的探讨 论文在讨论部分还展望了未来研究方向，例如构建基于实时信任反馈的机器人行为自适应闭环系统。即，如果机器人能持续感知到人类的信任水平，并据此调整自身行为策略，可能形成更和谐、更高效的人机协作关系。这为下一代可信赖自主系统的研发指明了重要的技术演进路径。此外，研究者也坦诚指出了本研究的局限，例如对情境性信任维度的探索相对有限，未来需要在更多样化的任务和环境设置中进一步验证和拓展相关结论。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问