慢性疾病预防的多类别反事实解释估算与一致性评估

一、学术背景与研究动机

近年来,人工智能(Artificial Intelligence, AI)在医疗健康领域取得了巨大进展。从最初的辅助诊断、风险预测到个性化干预方案的推荐,AI已成为改善医疗服务质量和效率的重要工具。然而,AI在临床实际应用中仍面临诸多挑战,最突出的问题之一是模型的可解释性(Explainability)与可信度(Trustworthiness)。当AI系统被用于临床决策支持(Clinical Decision Support Systems, CDSS)时,医务人员和患者都迫切希望能“看懂”AI如何做出推断,以及这些推断是否符合现有医学知识而不是黑盒输出。缺乏透明度不仅限制了AI工具的推广,也影响了医生的信任与接受度,进而影响到患者的安全和健康结果。

为弥补这一缺陷,解释性人工智能(Explainable AI, XAI)技术应运而生。XAI力图在保留AI强大性能的同时,增强其决策过程的可理解性,从而使自动化、数据驱动的决策路径变得透明、可靠,并能被医学专家所接受。在众多XAI技术中,反事实解释(Counterfactual Explanations)尤为受到关注。其核心思想是展现“如果输入数据发生变化,模型输出将如何改变”,即通过提供一种“假如(what-if)”情景,帮助医生理解模型的判断基础和可能的干预方向。在医学场景下,反事实解释可为个体患者制定个性化风险干预策略,揭示哪些变量的改变可以直接影响疾病风险或诊断结果,例如通过调整血压、血糖、体重等生物标志物。

尽管反事实解释理论上非常契合临床需求,但其实际应用和评估仍存在诸多问题。例如,如何保证反事实解释既与原始数据足够接近,从而“可行”,又足够代表目标类别,从而“有用”?如何系统量化和筛选出可靠、高质量的解释?如何在复杂的多类别分类(如疾病风险分级)中实现高效、可控的反事实生成?本研究正是针对上述空白提出新方法,并应用于慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease, COPD)患者心血管疾病风险的个性化预防领域,尝试为临床决策支持系统打造更为严谨和可信的解释性机制。

二、论文来源与作者信息

该研究论文题为“Estimation and Conformity Evaluation of Multi-Class Counterfactual Explanations for Chronic Disease Prevention”。论文于2025年9月发表在《IEEE Journal of Biomedical and Health Informatics》杂志上。作者团队跨越不同国家与研究机构,核心成员包括Marta Lenatti(通讯作者)、Alberto Carlevaro、Aziz Guergachi、Karim Keshavjee、Maurizio Mongelli以及Alessia Paglialonga。主要研究机构包含意大利CNR-Istituto di Elettronica e di Ingegneria dell’Informazione e delle Telecomunicazioni, University of Genoa、Ted Rogers School of Management与Ted Rogers School of Information Technology Management(加拿大)、University of Toronto健康政策与管理评估研究所、York University等。该项目获得欧洲联盟、意大利高校与科研部(MUR)多个国家科研计划与人工智能创新生态系统的资助。

三、研究流程详述

1. 数据集的提取与预处理

对象与样本量:
研究团队从加拿大初级医疗监察网络(Canadian Primary Care Sentinel Surveillance Network, CPCSSN)数据库中,筛选了2000年至2015年间收集的去标识化电子健康记录。这部分数据涉及已诊断COPD且年龄大于20岁的患者,经严格筛选与数据清洗后得到9613条无缺失值记录(远少于原始37504例,确保高质量数据)。

特征设定:
每一条数据收集了COPD诊断日前6个月内的主要生物标志物,包括发病年龄、性别(出生时指定)、体重指数(BMI)、收缩和舒张血压(SBP/DBP)、空腹血糖(FBS)、低密度脂蛋白(LDL)、高密度脂蛋白(HDL)、甘油三酯(TG)、总胆固醇(TOTCHOL)、吸烟史(现吸烟、戒烟、从未吸烟)、伴发高血压或糖尿病(诊断时间在COPD前6个月内)。研究特别区分了各特征的可变性:可改变量(如BMI、血压)、部分可改变量(如吸烟状态)、不可改变量(如年龄、既往疾病)。

输出变量设定:
采用Framingham Risk Score(心血管疾病十年风险评分,FRS),按照加拿大心血管协会(Canadian Cardiovascular Society)提供的分级标准,将患者分为低风险(<10%,3944例)、中等风险(10%-19%,3274例)与高风险(≥20%,2395例)三类。该输出为后续反事实解释及个性化干预建议提供参考基础。

2. 多类别分类模型构建与优化

主算法:
采用多类别支持向量数据描述(Multi-Class Support Vector Data Description, MC-SVDD)作为主要分类器。该算法能够在高维特征空间利用核函数,将各类别数据用最小包围球隔离,适合异常点检测与多类别判别。针对实际医疗数据中不可避免的分类误差,研究创新性地引入了“虚警率控制(False Positive Rate Control, FPR)”,通过一对多方法迭代优化,每个类别都利用单类别SVDD(One-Class SVDD)重复训练,直到误分类率小于预设阈值(如0.1)或迭代次数达到上限(如1000)。

模型替代与验证:
在用于部分反事实算法时(如DICE无法直接兼容MC-SVDD),团队采用了Surrogate Support Vector Machine(SVM,代理支持向量机),通过最大程度模拟MC-SVDD的输入输出行为,实现算法间对比并用Cohen’s Kappa系数(0.89)验证模型一致性。

训练与测试:
数据集按7:3比例分为训练和测试集,采用最大值缩放进行归一化。MC-SVDD参数通过三折交叉验证和网格搜索确定,SVM同样进行三折交叉验证寻优。最终,两模型在训练集和测试集均取得了较高精度和低漏判比例,尤其在引入FPR控制后,模型更倾向于“拒绝不确定判别”,提升临床可靠性。

3. 反事实解释生成算法

总体思想:
以COPD患者心血管高风险类别(test set中682/690例)为出发点,每个“事实样本”都尝试生成两个“反事实解释”:一份让其转为中等风险、一份让其转为低风险(分别对应新的生理指标组合)。

方法对比与新算法:
采用两种主流反事实解释生成策略:

  • MUCH(Multi Counterfactuals via Halton Sampling):依据Halton序列在目标类别空间进行准随机采样,并通过优化目标“最小距离”实现反事实样本生成。约束条件保证新样本“刚好”划归到目标类别边界内而远离其他类别边界。MUCH可控性强,收敛更容易,与MC-SVDD协同更佳。

  • DICE(Diverse Counterfactual Explanation):采用启发式遗传算法,实现多样性(diversity)与接近性(proximity)优化,同时支持混合类型特征。每个事实样本设定只生成一个反事实解释,和MUCH一致以便公平对比。受限于启发式方法,DICE在某些复杂场景可能陷入局部最优且不保证一定收敛。

两种方法均严格限制变量变动范围,尤其对于医学现实中不可逆的特征(如患者永远无法成为“从不吸烟者”),反事实解释只允许向现实方向调整(如从当前吸烟状态向“戒烟”转换),并设置医学相关阈值(如最大BMI、血脂值等)。

4. 反事实解释质量评价与一致性判断

评价指标与统计检验:

  • Availability(可生成性):生成成功率
  • Discriminative Power(判别能力):解释样本与原类别样本区分准确率
  • Proximity(接近性):与原始事实样本的距离(越近越好)
  • Sparsity(稀疏性):平均变动特征数量
  • Implausibility(不合理性):与目标类别均值偏离程度(越低越好)
  • Diversity(多样性):生成解释间的差异性

所有指标都通过Wilcoxon符号秩检验与Mann-Whitney U检验验证显著性,并应用Bonferroni校正。

反事实一致性评价:

首创“反事实一致性(Counterfactual Conformity)”度量方法,借鉴“符合性预测(Conformal Prediction, CP)”思想,将解释质量定量化:

  • 利用混合距离(结合汉明距离与余弦距离),综合考虑解释样本与原事实(proximity)和目标类别中心(plausibility)的距离。
  • 设定阈值ε(如0.1),评价每个反事实解释是否达到高信心标准。若对各目标类别都满足,定义为“完全一致性反事实”;只部分满足则为“部分一致性反事实”;完全不满足则为“非一致性反事实”。
  • 通过在测试集上校准打分函数,实现解释筛选和定量可靠性输出。

四、主要研究结果解析

1. 分类器性能

  • 引入FPR控制后,MC-SVDD训练集准确率提升至85.6%,未分类点比例上升至10%(即更少误诊,但主动放弃不确定判别),各类别敏感性分别达88.2%(低风险)、75.0%(中等风险)、95.9%(高风险)。测试集表现略低但尚可。
  • SVM代理模型对MC-SVDD预测表现高度拟合,训练集/测试集准确率分别达96.9%/92.6%,Cohen’s Kappa系数达0.89。

2. 反事实解释生成与质量比较

  • MUCH解释的平均可生成性为84.6%,DICE高达98.2%。二者在判别能力均较高(MUCH更佳),MUCH在不合理性和多样性方面略优,DICE则在接近性和稀疏性表现更好。
  • 针对高至中等风险转换,MUCH和DICE所建议的变量变动幅度各有不同,对某些特征(如收缩压、血脂等)变动趋势存在统计学差异。
  • 反事实一致性评价允许筛除不现实解释,剩余合格解释在各项指标(接近性、不合理性、稀疏性等)均优于未筛选和非一致性解释,包括病例中变量变动幅度更贴近临床可行(如BMI/血压变化不会超出现实范围)。

3. 个性化风险干预建议与医学意义

  • 通过MUCH与DICE生成的高一致性反事实解释所建议的个体变量(如降低收缩压、优化BMI、提升HDL或戒烟)均与医学常识相符,有助于指导临床专家制定具体、可操作的个性化干预方案。
  • 对于合并症患者(如合并高血压或糖尿病者),所建议变量变动幅度明显更大(如高血压患者建议更大幅度降压),反映模型充分捕捉了现实健康状态对干预目标的影响。

五、结论、学术与应用价值

该研究展示了一套完整的多类别医学风险分级反事实解释体系,并在COPD患者心血管风险预防场景下得到实际验证,贯穿数据提取、模型训练、解释生成、筛选评价等关键环节,整体流程严谨科学。最具突破性的是:

  • 首创反事实一致性评价标准,使临床决策支持系统不仅能解释AI推断过程,更能自动筛选出可信且现实可行的个性化干预建议。
  • 结合多类分类算法(MC-SVDD)与优化生成方法(MUCH/DICE),提升了医学适应性和解释多样性。
  • 提供面向临床实际的个性化干预建议,并结合大规模数据集验证,具备极高的应用推广价值。
  • 方法可推广至其他慢性病风险预测,辅助临床制定远程或实时AI辅助干预方案,提高全民健康管理效率。

六、研究亮点与展望

  • 新方法与新指标:MUCH反事实解释与反事实一致性评价指标首次面向医学实际场景落地,有效提升解释可信度与可用性。
  • 数据质量与实验设计:超大规模高质量健康数据库支撑,严格的变量标准化与医疗实际约束带来更切实可靠成果。
  • 灵活与可移植性:模型框架和解释机制适用于不同类别、不同疾病,易于集成至临床CDSS系统。
  • 未来展望:将进一步考虑专家知识动态嵌入、指标阈值优化与跨病种推广,持续推动医学XAI从理论到落地。

七、其他有价值信息

  • 研究实现代码、部分数据与工具已开源,助力学界与业界复现、验证与升级应用。
  • 论文提出的理论和流程,正在为基于电子健康记录(EHR)的慢性病管理、智能预防医学、以及抗风险AI模型开发提供技术支撑。
  • 研究团队保持多国多学科合作,示范大型AI医疗模型研发、评估与转化的国际化科学实践路径。

通过系统性技术创新和严谨学术论证,本研究为AI驱动的个性化慢病预防提供了面向实际应用的突破性工具和新思路,标志着医学解释性人工智能迈入可信、有效和可用的新阶段。