分享自:

迈向对话式诊断人工智能:AMIE系统的开发与评估

期刊:natureDOI:10.1038/s41586-025-08866-7

迈向对话式诊断人工智能:AMIE系统在模拟临床问诊中的表现评估

作者与发表信息 本项研究由来自Google Research和Google DeepMind的研究团队完成。主要作者包括Tao Tu、Mike Schaekermann、Anil Palepu、Khaled Saab、Jan Freyberg、Ryutaro Tanno、Amy Wang、Brenna Li、Mohamed Amin、Yong Cheng、Elahe Vedadi、Nenad Tomasev、Shekoofeh Azizi、Karan Singhal、Le Hou、Albert Webson、Kavita Kulkarni、S. Sara Mahdavi、Christopher Semturs、Juraj Gottweis、Joelle Barral、Katherine Chou、Greg S. Corrado、Yossi Matias、Alan Karthikesalingam和Vivek Natarajan。该研究于2025年4月9日在线发表于《Nature》期刊,并于同年6月12日刊出。

学术背景 本研究属于人工智能在医学领域的交叉应用研究,具体聚焦于开发用于临床诊断对话的对话式人工智能系统。医患对话是医疗实践的核心,熟练的问诊(history-taking)对于有效诊断、治疗和建立信任至关重要。然而,全球范围内获得高质量的临床问诊服务仍面临挑战。近年来,通用大语言模型(LLMs)在规划、推理和情境理解方面展现出强大能力,为开发能够进行自然、有诊断价值的医学对话的AI系统提供了新的可能性。此类系统有望改善医疗服务的可及性、质量和一致性。然而,尽管LLMs在单轮医学问答任务中表现出色,但其在临床病史采集和诊断对话方面的能力尚未得到严格评估,也缺乏与执业全科医生(primary care physicians, PCPs)的全面比较。因此,本研究旨在填补这一空白,开发并评估一个专门为诊断对话优化的大语言模型系统。

本研究的主要目标是:1)介绍一个名为AMIE(Articulate Medical Intelligence Explorer)的、基于LLM的、专为诊断对话优化的AI系统;2)开发一个基于自我博弈(self-play)的模拟学习环境,以规模化地训练AMIE应对各种疾病、专科和情境;3)设计一个评估框架,从多个临床相关维度(如病史采集、诊断准确性、管理计划、沟通技巧和同理心)评估诊断对话AI的性能;4)通过一项随机、双盲、交叉设计的远程客观结构化临床考试(OSCE)研究,将AMIE与执业全科医生在文本咨询中的表现进行比较。

详细工作流程 本研究的工作流程主要包括AMIE系统的开发、训练、评估框架设计以及最终的人机对比实验。

首先,AMIE系统的开发与训练。AMIE基于PaLM 2大语言模型构建,通过指令微调(instruction fine-tuning)增强其在医学对话和推理方面的能力。训练数据来源多样,包括:1)真实世界医学对话数据集(约9.9万份去识别化的医患对话转录文本);2)医学推理和问答数据集(如MedQA);3)专家撰写的长形式医学问答;4)电子健康记录摘要。为了克服真实数据在覆盖范围和噪声方面的限制,研究团队设计了一个创新的自我博弈模拟学习环境。该环境包含四个由AMIE扮演的智能体:病例生成器(基于网络搜索为特定疾病生成多样化的患者背景信息)、患者智能体医生智能体仲裁者。后三者进行模拟对话,而评论家智能体则根据已知的真实诊断,为医生智能体提供反馈,使其在后续对话中改进表现。这个过程包含两个循环:“内循环”中,医生智能体根据评论家的反馈即时优化对话;“外循环”中,优化后的模拟对话被加入下一轮微调的训练数据中。这种机制使AMIE能够接触到海量、多样的模拟病例,从而扩展其能力。此外,在在线推理时,AMIE采用了一种链式推理策略:先分析患者信息并生成初步鉴别诊断(differential diagnosis, DDx),然后规划回应和行动,最后根据特定标准(如事实准确性、同理心)精炼回复。

其次,评估框架与OSCE研究设计。研究团队设计了一套全面的评估标准,结合了患者中心沟通最佳实践(PCCBP)、英国皇家医师协会临床实践技能评估(PACES)和全科医学咨询患者问卷(GMC-PQ)中的核心要素,从专科医生和患者演员(patient-actor)两个视角评估对话质量。为了进行人机对比,研究团队组织实施了一项随机、双盲、交叉的远程OSCE研究研究对象包括:20名有执业资格的全科医生(PCPs)、20名经过培训的患者演员(分别来自加拿大和印度),以及33名专科医生作为评估者。研究使用了159个临床场景包,涵盖心血管、呼吸、消化、神经、泌尿/妇产和内科六大专科,这些场景来自加拿大、英国和印度的医疗提供者。

实验流程如下:1)在线文本咨询:每位患者演员使用同步文本聊天界面,分别与一名PCP和AMIE进行两次咨询,顺序随机且双盲。每次咨询限时20分钟。2)咨询后问卷:咨询结束后,患者演员和OSCE代理(即PCP或AMIE)分别填写问卷。患者演员的问卷用于评估其主观体验(如沟通质量、同理心),OSCE代理的问卷则要求提供鉴别诊断列表、检查、治疗和管理建议等。3)专科医生评估:三位与场景专科和地域匹配的专科医生在不知情的情况下,对每次咨询的完整文字记录和OSCE代理的问卷回答进行评估。他们根据详细的评分标准,对诊断准确性、管理计划合理性以及沟通技巧等多个维度进行打分。

数据分析:诊断准确性通过计算Top-k准确率(即正确诊断出现在鉴别诊断列表前k位的比例)来评估,并使用双侧自助法(bootstrap)检验进行显著性分析。患者演员和专科医生的评分数据则使用双侧Wilcoxon符号秩检验进行组间比较,并进行了错误发现率(FDR)校正。

主要结果 研究结果显示,在模拟的文本诊断对话中,AMIE在多个关键评估维度上表现优于全科医生。

诊断性能:根据专科医生的评估,AMIE提供的鉴别诊断列表比PCPs的列表更准确、更全面。在将诊断与真实诊断匹配时,AMIE在所有Top-k(k=1到10)准确率上均显著高于PCPs(所有p<0.05)。例如,Top-1准确率(即首要诊断正确)AMIE显著更高。在将诊断与可接受的鉴别诊断集合匹配时,AMIE同样在所有Top-k准确率上显著优于PCPs。对149个主要描述疾病状态的场景分析显示,AMIE的诊断优势依然存在。分专科看,AMIE在除妇产科/泌尿科外的所有专科中表现均匹配或优于PCPs,在呼吸科和内科的改善最为明显。

一个关键的分析是分离信息获取与诊断推理能力。研究比较了AMIE基于自身对话做出的诊断,与AMIE基于PCP对话记录(即相同信息输入)做出的诊断。结果显示,两者诊断性能高度相似,且都显著优于PCPs自身的诊断。这表明,在本研究设置下,AMIE在信息获取效率上与PCPs相当(两者对话轮次和从患者处获取的信息量相似),但其诊断推理能力更强,能更准确地将获取的信息转化为诊断。

对话质量:从患者演员视角看,在26个评估维度中,AMIE在25个维度上的评分显著高于PCPs(p<0.05),包括“倾听患者”、“表达同理心”、“让患者感到安心”、“解释病情和治疗”、“提供适当治疗计划”以及“患者对提供护理的信心”等。唯一没有显著差异的维度是“承认错误”(仅适用于发生错误的情况)。从专科医生视角看,在32个评估维度中,AMIE在30个维度上的评分显著优于PCPs(p<0.05),涵盖了病史采集的结构性与完整性(如系统回顾、既往史)、诊断与管理(如鉴别诊断的适当性、检查建议的适当性)、以及沟通技巧(如回应患者关切、展现同理心、建立融洽关系)等各个方面。AMIE未显著优于PCPs的两个维度是“升级建议适当性”和“无虚构信息”。

研究还通过模拟对话的自动评估验证了自我博弈训练过程的有效性,表明内循环自我博弈提高了模拟对话在同理心、专业性和连贯性等轴向上的质量。

结论与意义 本研究介绍了AMIE,一个为临床诊断对话优化的大语言模型AI系统。通过一项严谨的随机双盲OSCE研究,本研究表明,在基于文本聊天的模拟诊断咨询中,AMIE在诊断准确性和多项对话质量指标上超越了执业全科医生。这标志着朝着开发实用的对话式诊断AI迈出了重要的一步。

研究的科学价值在于:1)首次将大语言模型在诊断对话中的能力与人类医生进行了大规模、多维度、基于标准化评估框架(OSCE)的直接比较。2)开发了创新的自我博弈模拟学习框架,为解决医学对话数据稀缺和多样性不足的问题提供了可扩展的方案。3)建立了涵盖临床专业性和患者体验的综合性评估体系,为未来评估医学对话AI设立了更全面的基准。

研究的应用潜力巨大。如果未来经过充分验证和严格的安全、伦理审查,此类系统有潜力作为辅助工具,帮助扩大高质量诊断服务的可及性,特别是在医疗资源匮乏的地区,或作为临床医生的智能助手,提供更全面的鉴别诊断参考和沟通建议,从而提升医疗质量和一致性。

研究亮点与局限性 研究亮点包括:1)方法创新:结合真实数据与基于自我博弈的大规模模拟对话生成,有效扩展了模型的训练范围和能力。2)评估严谨:采用了随机、双盲、交叉的OSCE研究设计,并邀请了真实的患者演员、全科医生和专科医生参与,评估维度全面且贴近临床实践。3)结果显著:在诊断准确性和人文关怀(如同理心、沟通)两个核心领域均显示出AI的潜力,挑战了传统认知。

研究局限性亦需谨慎看待:1)交互形式局限:研究使用同步文本聊天,这与临床实践中常见的电话、视频或面对面问诊不同,可能限制了PCPs的发挥,且不反映真实的远程医疗实践。2)场景代表性:评估场景大多预设了疾病状态,而初级医疗中大量工作在于排除疾病,此分布与真实世界不完全一致。3)公平性与偏差:研究未系统评估模型在不同人口统计学群体(如种族、性别、健康素养)中的表现差异,这是未来部署前必须解决的关键问题。4)模拟性质:所有交互均在受控的模拟环境中进行,与真实临床环境的复杂性(如时间压力、多模态信息、连续性照护)存在差距。

其他有价值的内容 论文的讨论部分深入探讨了未来研究方向:1)人机互补:结合医生分析非语言线索的优势与AI生成更丰富、结构化回复的能力。2)多语言与公平性:需确保模型在多种语言和文化背景下的鲁棒性和公平性,避免放大现有医疗不平等。3)向现实世界转化:强调了将研究原型转化为安全、可靠、有效的临床工具所需的大量额外工作,包括严格的真实世界评估、不确定性估计、伦理部署框架以及临床知识的持续更新机制。作者强调,尽管AMIE的表现是一个里程碑,但其结果需谨慎解读,在应用于真实世界之前,仍需进行大量研究以确保其安全性、可靠性、公平性、有效性和隐私保护。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com