一、 研究作者、机构与发表信息
本研究由Kristin E. Schaefer主导并完成。研究工作主要依托美国陆军研究实验室(US Army Research Laboratory)的人类研究与工程理事会(Human Research and Engineering Directorate)进行,并且作者的研究得到了美国陆军研究实验室合作协议以及美国陆军研究博士后奖学金项目的部分支持。相关研究成果以书籍章节的形式发表,收录于R. Mittu等人主编的《Robust Intelligence and Trust in Autonomous Systems》一书中,该章节于2016年由Springer Science+Business Media出版。
二、 学术背景与研究目的
本研究属于人机交互(Human-Robot Interaction, HRI)、人因工程(Human Factors)及心理学交叉学科领域,核心关注点是人-机器人信任的测量。
研究背景: 近年来,机器人技术飞速发展,功能、智能和自主性大幅提升。这导致了人机交互范式的根本性转变:机器人正从被动的工具角色,转变为活跃、集成的团队成员、伙伴甚至朋友。在这一背景下,人类对机器人的信任成为决定交互成功与否、以及未来机器人能否被有效利用的关键因素。然而,该领域的研究面临一个显著瓶颈:缺乏专门针对HRI独特性质的、精确的信任测量工具。以往研究多采用单一自陈条目(如“你有多信任这个机器人?”)或改编自人际信任、人-自动化信任的量表,这些方法被认为无法全面、准确地评估人-机器人信任的完整构念。虽有少量针对特定领域(如军事应用)的量表开发,但机器人技术正日益融入多种情境和任务,亟需一种普适、可靠的信任测量工具。
研究目的: 本研究的核心目标是开发并验证一个专门用于测量人-机器人信任的主观量表,即“信任感知量表-人机交互”(Trust Perception Scale-HRI, TPS-HRI)。具体目标包括: 1. 设计一个能得出总体信任百分比分数的量表。 2. 确保该量表能够有效测量随时间变化的信任感知(动态性)。 3. 使其适用于跨机器人领域、跨不同HRI角色(操作员、监督员、机械师、同伴或旁观者)以及不同系统自主性和智能水平。
三、 详细研究流程
本研究严格遵循量表开发的标准化程序(依据DeVellis, 2003和Fink, 2009的流程),共包含五个主要阶段:条目池创建、条目池缩减、内容效度验证、任务效度测试(动态性)和任务效度测试(同质效度)。
第一阶段:条目池创建 1. 方法: 首先,对超过700篇涉及人-机器人信任、人-自动化信任和人际信任的文献进行了系统性回顾与分析,记录理论、定性和定量关系。基于Hancock等人(2011)提出的“人-机器人信任三因素模型”(人类、机器人、环境),并结合文献综述中识别出的潜在信任前因,更新了该模型框架。初始条目主要来源于这些综述。 2. 补充实验: 为填补文献中关于机器人形态对信任影响研究的空白,并进一步丰富条目池,进行了两项初步实验: * 实验1(形态与可信度): 161名参与者对63张来自工业、军事、医疗、服务、社交等领域的真实机器人图片进行评分。采用多元回归分析发现,仅凭形态感知,感知智能(Perceived Intelligence, PI)、机器人分类评分(Robot Classification, RC)和负面社会影响(Negative Social Influence, SI) 就能显著预测可信度评分,解释了45.1%的方差。这表明人们会像评估潜在人类队友一样,在交互前基于外形对机器人的智能和可信度进行预判。 * 实验2(属性与分类): 200多名参与者对部分机器人图片的子集进行评分,使用标准化HRI测量工具Godspeed问卷中的部分条目,评估拟人化、活力、喜爱度和感知智能等属性。结果显示,机器人分类评分与可信度评分呈显著正相关。但不同机器人的关键属性各不相同,因此决定将所有属性相关条目纳入初始条目池。 3. 条目整合: 在文献综述和两项实验的基础上,进一步审查了51个新量表、22个改编量表和13个已有量表中的487个信任条目,进行条目提炼。 4. 成果: 最终创建了包含156个条目的初始条目池。每个条目均以完整句子表述,指向“大多数机器人”的普遍性陈述,采用7点李克特量表(从“非常不同意”到“非常同意”),并确保正反向(或对立相关)条目数量平衡。
第二阶段:条目池缩减(统计缩减) 1. 研究对象与方法: 159名大学生通过在线平台参与。他们首先完成随机排列的156个初始信任条目,然后填写人口统计学问卷(包括性别、年龄、对机器人的心理模型及先验经验)。研究时长约30分钟。样本显示参与者对机器人的经验主要来自媒体,少数有过实际互动或控制经验。 2. 数据分析与缩减流程: * 主成分分析(PCA): 对156个条目进行PCA,根据特征值>1的标准提取出43个成分,解释了79.63%的方差。结合碎石图,保留4个成分进行正交旋转,这4个成分解释了30.64%的方差。成分分析结果支持了人-机器人信任的三因素理论模型(功能、行为/沟通、任务、特征)。 * 正态性检验: 检查条目的偏度和峰度,将62个存在显著偏态和20个存在显著峰度的条目考虑移除。 * 配对样本t检验: 对所有配对的正面和反向条目进行检验,发现39对条目之间无显著差异,这为减少条目提供了依据,可从中移除39个条目。 * 理论重要性保留: 尽管部分条目在统计上可考虑移除,但基于其在信任理论中的重要性,保留了10个条目(如“自主的”、“拥有足够的决策能力”等)供后续专家评审。 3. 成果与调整: 经过上述统计分析,条目池从156个缩减至73个。同时做出两项重要调整:1)将所有条目简化为单词或短语;2)将量表形式从7点李克特量表改为以10%为增量的百分比量表(0%-100%),以更好地捕捉从“完全不信任”到“完全信任”的连续体,并支持将信任与不信任视为相关但独立构念的观点。
第三阶段:内容效度验证(专家评审) 1. 研究对象与方法: 邀请了11名来自美国陆军研究实验室、美国空军研究实验室及大学研究实验室的信任、机器人学或HRI领域的主题专家(Subject Matter Expert, SME)。专家们通过在线调查完成四个部分:1)专业背景问卷;2)以“一个对机器人几乎不信任的人会如何评价”为指导语,完成73条目量表;3)以“一个对机器人完全信任的人会如何评价”为指导语,完成同一量表;4)基于Lawshe(1975)协议的内容效度问卷,对每个条目的重要性进行3点评分(“极重要”、“重要”、“不应包含”),并可提供评论。 2. 数据分析: * 内容效度比(Content Validity Ratio, CVR): 计算每个条目的CVR值。根据Lawshe标准,11位专家时CVR临界值为0.59。有14个条目被超过半数的专家评为“极重要”,CVR值达标(0.64-1.00)。 * 假设差异范围分析: 对比专家在“完全不信任”和“完全信任”指导语下对条目的评分,进行配对样本t检验,以评估条目区分高低信任状态的能力。 3. 条目筛选: * 保留条目: 14个CVR达标的条目全部保留。另外,对37个被评为“重要”的条目,结合其假设差异范围的t检验结果进行二次筛选,保留了其中24个在高低信任状态下评分存在显著差异的条目。 * 移除条目: 移除原因包括:CVR未达标且假设差异不显著(如与移动速度相关的条目、人格特质相关条目等);专家评论指出条目重复、过于宽泛(如“可爱的”)、或更多反映情境因素而非信任本身。 * 特殊保留: 尽管有4个条目(友好的、令人愉快的、有意识的、逼真的)CVR未达标,但专家认为它们对未来社交机器人信任研究可能有价值,故予以保留。 4. 成果: 经过语义分析,量表条目从73个进一步缩减至42个,其中包括14个“核心”条目和28个其他重要条目。
第四阶段:任务效度测试I:量表分数是否随时间及干预而变化?(动态性验证) 1. 研究对象与任务: 81名大学生参与。研究采用计算机模拟的士兵-机器人团队“警戒后方”监控任务。使用美国陆军研究实验室开发的“机器人交互可视化与实验技术”(RIVET)系统创建虚拟环境。参与者需要监控一个TALON™机器人的视角视频,机器人报告目标检测。 2. 实验设计: 采用前测-后测设计,测量三次信任: * 时间点1(交互前): 观看机器人图片后,完成42条目TPS-HRI。 * 时间点2(交互后-高可信条件): 观看第一个视频(机器人提供100%可靠的目标检测反馈)后,再次完成量表。 * 时间点3(交互后-低可信条件): 观看第二个视频(机器人仅提供25%可靠的反馈)后,第三次完成量表。 3. 数据分析与结果: * 条目分析: 对42个条目分别进行重复测量方差分析,34个条目在三个时间点上显示出显著差异。其中6个条目仅在时间点1和时间点2间有差异,可能反映了心理模型的变化,故予保留。2个条目(在集成团队环境中运作、经久耐用)在三个时间点均无显著变化,被移除。 * 信任分数验证: 将剩余的40个条目(先对反向计分条目进行处理)得分求平均,得到0-100的总体信任分数。重复测量方差分析显示,时间主效应极其显著。事后检验表明:时间点2(100%可靠后)的信任分数显著高于时间点1(交互前)和时间点3(25%可靠后);同时,时间点1的信任分数也显著高于时间点3。 这完全支持了研究假设,证明量表能敏感捕捉因机器人可靠性变化而导致的信任动态波动。 * 40条目与14条目子量表比较: 对比40条目全量表和14条目核心子量表,发现两者分数变化模式相似,但40条目量表提供了更精细的粒度,被认为能给出更准确的信任评分。
第五阶段:任务效度测试II:量表测量的是信任吗?(同质效度验证) 1. 研究对象与任务: 21名大学生参与。实验采用RIVET系统模拟一个士兵-机器人联合导航任务。参与者控制士兵角色,与一个自主导航的机器人协作抵达会合点。 2. 实验设计: 采用相同特质法(Same-Trait Approach)。参与者依次完成: * 交互前: 观看机器人图片后,完成40条目TPS-HRI、14条目子量表以及成熟的人-自动化信任清单(Checklist for Trust between People and Automation,由Jian等人于1998年开发,本研究将“自动化”替换为“机器人”)。 * 交互后(两种条件): 分别完成两个不同可靠性的导航任务模拟(机器人绕过80%障碍 vs. 仅绕过20%障碍),顺序平衡。每次任务后,再次完成上述三个信任量表。 3. 数据分析与结果: * 相关性分析: 三个量表在所有测量时间点(交互前、20%错误后、80%错误后)均呈现显著的高度正相关,支持了假设一,表明它们测量的是同一构念(信任)。 * 后测差异分数分析: 比较三个量表在两种错误率条件(20% vs 80%)下的变化分数,未发现显著差异,进一步支持它们测量的是同一特质。 * 前-后测变化分析: 40条目量表和14条目子量表的分数在交互前后发生了显著变化(信任水平随机器人表现下降而降低),而Jian等人的量表分数在交互前后没有显著变化。这表明TPS-HRI捕捉到了交互经验带来的信任动态变化,而既有量表可能对此不敏感。 * 量表间整体差异: 进一步分析发现,在交互前,三个量表的分数无显著差异。但在交互后两种条件下,40条目量表与Jian等人量表的分数出现了显著差异,而14条目子量表与Jian量表则无差异。这凸显了40条目全量表在捕捉交互后复杂信任感知方面的优势。
四、 主要研究结果
五、 结论与研究价值
结论: 本研究成功开发并系统验证了“信任感知量表-人机交互”(TPS-HRI),这是一个专门用于测量人-机器人信任的可靠、有效的主观工具。它能够量化信任水平,敏感捕捉信任的动态变化,并适用于广泛的机器人领域和HRI角色。
研究价值: * 科学价值: 填补了HRI研究领域在标准化、专业化信任测量工具方面的空白。量表严格的开发流程和验证结果为未来信任研究提供了方法学范本。研究结果也深化了对信任前因(特别是形态因素)和信任动态性的理解。 * 应用价值: 1. 机器人设计与评估: 工程师和设计师可以使用该量表来评估不同机器人设计、交互模式或通信策略对用户信任的影响,从而优化系统。 2. 人机团队效能研究: 研究人员可以利用该量表探究信任如何影响人机团队的合作效率、任务绩效和安全性。 3. 实际部署与培训: 在军事、医疗、服务等实际部署场景中,该量表可用于监测和校准用户对机器人的信任水平,避免因过度信任或信任不足导致的风险,并可用于设计有效的培训方案。 4. 跨领域比较: 量表的普适性使得在不同机器人应用领域(如工业、社交、医疗)进行信任水平的比较研究成为可能。
六、 研究亮点
七、 其他有价值内容
文档末尾提到了该量表已在多项后续研究中得到应用,展示了其生命力和实用价值。例如: * 用于研究机器人通信透明度(信息流数量与模态)对信任的影响。 * 用于比较模拟环境与真实环境中HRI的信任测量。 * 被应用于美国陆军“用于基地安装与运营的机器人应用”(ARI-BO)项目,研究自动驾驶载具中乘客的信任发展,探索透明用户界面、人类角色(驾驶员、安全员、乘客)转换等因素对信任的影响。 这些应用实例不仅验证了量表的有效性,也推动了人-机器人信任理论在具体场景中的深化。