可解释人工智能(XAI)在医学决策中的影响:一项用户研究
作者及机构
本研究由澳大利亚墨尔本大学(University of Melbourne)的Sam Baron(通讯作者)、丹麦奥胡斯大学(Aarhus University)的Andrew J. Latham和Somogy Varga合作完成,发表于2025年1月的《Artificial Intelligence》期刊(卷340,文章编号104282)。论文采用开放获取形式,遵循CC BY 4.0许可协议。
学术背景与研究目标
本研究聚焦可解释人工智能(Explainable AI, XAI)在医疗领域的应用挑战。随着AI在医学影像诊断、疾病预测和治疗方案推荐中的普及,其“黑箱”特性导致用户(患者和医生)对算法决策的信任不足,可能阻碍知情同意(informed consent)的达成。现有研究多关注反事实解释(counterfactual explanations)和因果解释(causal explanations),但哲学研究指出,叙事性解释(narrative-based explanations)通过详述因果机制可能更易促进理解。本研究旨在填补以下空白:
1. 比较三种解释类型(因果、反事实、叙事)对用户认知的影响;
2. 分析决策风险(高/低风险)和决策来源(AI/医生)的调节作用;
3. 探索解释类型对信任(可靠性信任与利益信任)、知情同意及治疗选择的影响。
研究方法与流程
研究采用情景实验法(vignette-based methodology),设计为2(风险:高/低)×2(决策来源:AI/医生)×4(解释类型:因果/反事实/叙事/无解释)的组间实验,共16组条件。484名受试者通过Prolific平台招募,每人随机分配至一种情景,完成评估问卷。
具体流程如下:
1. 情景设计
- 高风险情景:危及生命的疾病(如胰腺癌),推荐化疗;
- 低风险情景:轻微疾病(如结膜炎),推荐抗菌滴眼液。
- 决策来源分为AI系统(标注其高准确率)或医生(标注其丰富经验)。
- 解释类型示例:
- 因果解释:“症状导致AI/医生诊断出疾病。”
- 反事实解释:“若无至少一个症状,诊断结果将不同。”
- 叙事解释:详细描述症状如何通过算法/医学知识关联至诊断(如“症状触发了AI的疾病关联模型”)。
数据收集
受试者需评估以下维度(7级李克特量表):
统计分析
使用多元协方差分析(MANCOVA)检验风险、决策来源和解释类型的主效应及交互作用,辅以Bonferroni校正的事后检验。控制变量包括性别、年龄、种族和政治倾向。
主要结果
1. 解释类型无显著差异
与假设相反,三种解释在帮助性、理解度、知情同意和信任度上均无统计学差异(p > 0.05),但均显著优于无解释组(p < 0.0001)。例如,叙事解释在理解度上得分(M=4.90)与因果解释(M=4.80)接近,但显著高于无解释组(M=3.36)。
风险水平的主导作用
低风险情景下,用户对所有解释的评价更高(理解度M=5.24 vs. 高风险M=3.69)。这与实用主义认知理论(pragmatic encroachment)一致:低风险时,用户对解释的接受阈值降低。
决策来源的微弱影响
医生提供的解释在理解度(M=4.72 vs. AI的4.21)和信任度(M=4.94 vs. 4.09)上略高,但治疗选择无差异。这表明AI的“不透明”标签可能削弱认知,但未影响最终行为。
信任的双维度差异
结论与价值
1. 理论意义
- 挑战了哲学界对叙事解释优越性的假设,表明在医学场景中,解释的存在性比类型更重要;
- 验证了风险水平对用户认知的调节作用,支持“高风险需更高解释标准”的实践原则。
应用建议
局限性
研究亮点
1. 创新性设计:首次将叙事解释纳入XAI实证比较,并区分信任的双维度;
2. 跨学科整合:结合哲学理论与医学实践需求,提出“解释阈值”概念;
3. 实践导向:为AI医疗工具的知情同意指南提供证据支持,强调风险情境的差异化设计。
补充发现
研究意外揭示:尽管AI解释的认知评价较低,用户治疗选择与医生组无差异。这一“认知-行为脱节”现象值得进一步探讨,或反映患者对AI工具的功能性依赖超越信任顾虑。
(全文约2000字)