分享自:

可解释AI与医学中的决策风险:一项用户研究

期刊:Artificial IntelligenceDOI:10.1016/j.artint.2025.104282

可解释人工智能(XAI)在医学决策中的影响:一项用户研究

作者及机构
本研究由澳大利亚墨尔本大学(University of Melbourne)的Sam Baron(通讯作者)、丹麦奥胡斯大学(Aarhus University)的Andrew J. Latham和Somogy Varga合作完成,发表于2025年1月的《Artificial Intelligence》期刊(卷340,文章编号104282)。论文采用开放获取形式,遵循CC BY 4.0许可协议。


学术背景与研究目标
本研究聚焦可解释人工智能(Explainable AI, XAI)在医疗领域的应用挑战。随着AI在医学影像诊断、疾病预测和治疗方案推荐中的普及,其“黑箱”特性导致用户(患者和医生)对算法决策的信任不足,可能阻碍知情同意(informed consent)的达成。现有研究多关注反事实解释(counterfactual explanations)因果解释(causal explanations),但哲学研究指出,叙事性解释(narrative-based explanations)通过详述因果机制可能更易促进理解。本研究旨在填补以下空白:
1. 比较三种解释类型(因果、反事实、叙事)对用户认知的影响;
2. 分析决策风险(高/低风险)和决策来源(AI/医生)的调节作用;
3. 探索解释类型对信任(可靠性信任与利益信任)、知情同意及治疗选择的影响。


研究方法与流程
研究采用情景实验法(vignette-based methodology),设计为2(风险:高/低)×2(决策来源:AI/医生)×4(解释类型:因果/反事实/叙事/无解释)的组间实验,共16组条件。484名受试者通过Prolific平台招募,每人随机分配至一种情景,完成评估问卷。

具体流程如下:
1. 情景设计
- 高风险情景:危及生命的疾病(如胰腺癌),推荐化疗;
- 低风险情景:轻微疾病(如结膜炎),推荐抗菌滴眼液。
- 决策来源分为AI系统(标注其高准确率)或医生(标注其丰富经验)。
- 解释类型示例:
- 因果解释:“症状导致AI/医生诊断出疾病。”
- 反事实解释:“若无至少一个症状,诊断结果将不同。”
- 叙事解释:详细描述症状如何通过算法/医学知识关联至诊断(如“症状触发了AI的疾病关联模型”)。

  1. 数据收集
    受试者需评估以下维度(7级李克特量表):

    • 解释的帮助性(helpfulness)与理解度(understanding);
    • 是否具备知情同意的能力(consent);
    • 对决策过程的可靠性(reliability)与信任度(trust);
    • 认为治疗方案是否以患者利益为导向(interests);
    • 是否接受治疗(二元选择)。
  2. 统计分析
    使用多元协方差分析(MANCOVA)检验风险、决策来源和解释类型的主效应及交互作用,辅以Bonferroni校正的事后检验。控制变量包括性别、年龄、种族和政治倾向。


主要结果
1. 解释类型无显著差异
与假设相反,三种解释在帮助性、理解度、知情同意和信任度上均无统计学差异(p > 0.05),但均显著优于无解释组(p < 0.0001)。例如,叙事解释在理解度上得分(M=4.90)与因果解释(M=4.80)接近,但显著高于无解释组(M=3.36)。

  1. 风险水平的主导作用
    低风险情景下,用户对所有解释的评价更高(理解度M=5.24 vs. 高风险M=3.69)。这与实用主义认知理论(pragmatic encroachment)一致:低风险时,用户对解释的接受阈值降低。

  2. 决策来源的微弱影响
    医生提供的解释在理解度(M=4.72 vs. AI的4.21)和信任度(M=4.94 vs. 4.09)上略高,但治疗选择无差异。这表明AI的“不透明”标签可能削弱认知,但未影响最终行为。

  3. 信任的双维度差异

    • 可靠性信任:叙事解释略优于无解释组(p=0.0002);
    • 利益信任:解释类型无影响(p=0.002,不显著)。

结论与价值
1. 理论意义
- 挑战了哲学界对叙事解释优越性的假设,表明在医学场景中,解释的存在性比类型更重要;
- 验证了风险水平对用户认知的调节作用,支持“高风险需更高解释标准”的实践原则。

  1. 应用建议

    • 医疗AI系统可优先提供简洁的因果或反事实解释,无需过度追求复杂叙事;
    • 需针对高风险决策(如癌症)设计更透明的解释框架,以保障知情同意。
  2. 局限性

    • 叙事解释的细节可能不足,未来需优化设计;
    • 未涵盖中等风险场景,可能低估解释类型的差异。

研究亮点
1. 创新性设计:首次将叙事解释纳入XAI实证比较,并区分信任的双维度;
2. 跨学科整合:结合哲学理论与医学实践需求,提出“解释阈值”概念;
3. 实践导向:为AI医疗工具的知情同意指南提供证据支持,强调风险情境的差异化设计。

补充发现
研究意外揭示:尽管AI解释的认知评价较低,用户治疗选择与医生组无差异。这一“认知-行为脱节”现象值得进一步探讨,或反映患者对AI工具的功能性依赖超越信任顾虑。

(全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com