LiveClin:一个无泄漏的实时临床基准——医疗大模型评估的范式革新
本研究由Xidong Wang(香港中文大学(深圳)及蚂蚁集团)、Shuqi Guo(香港中文大学(深圳))、Yue Shen、Junying Chen、Jian Wang、Jinjie Gu(蚂蚁集团)、Ping Zhang(俄亥俄州立大学)、Lei Liu(蚂蚁集团及浙江大学)以及Benyou Wang(香港中文大学(深圳))共同完成。该研究以“LiveClin: A Leakage-Free Live Clinical Benchmark”为题,发表于ICLR 2026会议。
一、 学术背景与研究目标
本研究隶属于医学人工智能与大型语言模型(Large Language Models, LLMs)评估交叉领域。随着医疗大模型(Medical LLMs)在辅助诊断和个性化护理方面展现出巨大潜力,对其临床推理能力进行准确、可靠的评估变得至关重要。然而,当前主流的医疗大模型评估体系存在两大根本性缺陷:一是数据污染(Data Contamination),即评估基准的题目和答案可能已被纳入模型的训练数据,导致模型在“见过”的题目上取得虚高分数,无法反映其真实泛化能力;二是知识过时(Knowledge Obsolescence),医学知识快速更新,静态的基准无法捕捉最新的临床实践和医学进展。此外,现有基准多为单轮、孤立的问答形式,与现实中患者从初诊、检查、诊断、治疗到长期随访的完整临床路径(Clinical Pathway) 脱节,无法评估模型在动态、多模态信息整合下的序列推理能力。
为此,研究团队旨在构建一个能够应对上述挑战的新型评估框架。本研究的目标是开发并发布LiveClin——一个动态、抗污染、基于真实临床实践的多模态基准。其核心设计原则是:1)实时性:基准内容持续更新,确保评估基于最新的医学知识;2)抗污染:通过动态更新机制,从设计上抵御数据污染问题;3)临床真实性:模拟完整的患者诊疗流程,评估模型在复杂、多阶段临床场景中的综合能力。
二、 详细研究流程与方法
LiveClin的构建是一个系统性的工程,包含三个核心阶段,并辅以一套严谨的临床分类体系。
1. 临床分类体系(Clinical Taxonomy) 在构建基准之前,研究团队首先建立了一个三级分类框架,用于对评估内容进行细粒度组织与分析。第一级基于国际疾病分类(ICD-10)章节,合并了16个主要的临床专科领域(如肿瘤、神经系统、消化系统),用于宏观性能分析。第二级基于中国国家医疗保障局(NHSA)标准,定义了72个疾病簇,用于亚专科层面的分析。第三级则细化到单个ICD-10编码,支持诊断级别的精细化评估。这套分类体系为后续的病例采样、性能分析和结果解释提供了结构化基础。
2. 第一阶段:病例构建 此阶段目标是建立一个高质量、时效性强、疾病覆盖均衡的临床病例语料库。 * 病例筛选:研究团队从PubMed Central(PMC)开放获取子集中,以编程方式检索2025年上半年发表的所有病例报告(XML格式)。通过自建流水线解析文件,提取病例叙述、讨论部分,并将表格转换为Markdown格式,同时提取所有相关图表及其URL,为多模态评估做准备。 * 采样:为确保基准的代表性和平衡性,团队使用GPT-4.1对所有病例按三级分类体系进行自动分类。随后,采用分层抽样策略,目标是从72个二级疾病簇中,每个簇抽取30个独立病例,并优先考虑每个病例中三级疾病的多样性,以避免常见病的过度代表。最终,构建了一个包含2,150份高质量病例报告的初始语料库。
3. 第二阶段:试题生成 此阶段旨在将静态的病例报告转化为模拟完整临床路径的多步骤、多模态评估场景。研究团队创新性地采用了生成器-评论员(Generator-Critic)智能体架构(由O3模型驱动),以自动化方式大规模生成高质量、高挑战性的考题。 * 场景生成:生成器智能体首先为每个病例创建一个初始临床场景(仅包含患者就诊时的基本信息)。然后,它生成3至6个渐进式的多选题,每个问题有10个选项。每个问题被动态分配一个临床阶段标签(如“初步评估”、“诊断与解读”、“治疗策略”、“随访”等),并随着问题的推进,策略性地引入新的临床信息(如新的实验室结果、影像学图片),以测试模型整合动态信息的能力。 * 迭代优化:评论员智能体对生成的问题集进行自动化“同行评审”,评估其临床准确性和认知复杂度。若发现问题,评论员会提供反馈,生成器据此进行修订。此循环持续进行,直到问题集达到两个标准:100%的临床准确率,以及超过60%的问题具有高认知复杂度。如果在10轮内无法收敛,则该问题集被丢弃。此流程应用于2,150个病例,最终产生了2,092个高质量的问题集。
4. 第三阶段:质量检查 为确保医学内容的绝对准确性,此阶段实施了严格的多层质量保障协议,遵循“拒绝任何可能存在缺陷的问题”的保守原则。 * AI初步筛选:首先由一个裁判(Judge)智能体(同样基于O3)对生成的问题集进行预审。该智能体系统地区分“特权信息”(病例报告全文)和“考生可见信息”(问题中给出的信息),自主剔除存在根本性缺陷(如答案无法从给定信息推导)的问题。此步骤将候选问题集从2,092个减少到1,869个。 * 医生筛选:这是质量保证的核心环节,共涉及239名持证医师,分为两个阶段: * 标注阶段:由主治医师根据既定标准(事实一致性、逻辑可解性)评估每个问题。 * 检查阶段:由更资深的医生(主任/副主任医师)对标注结果进行复核。出现分歧时,启动修订循环直至达成一致。整个团队覆盖了广泛的专业领域,且病例被分配给对应专业的医生进行评审,确保了评估的领域适配性。所有材料被翻译成中文供医生评审。 * 经过总计1,772.18人工时的严格审核,最终生成了1,822个有效问题集。从中,通过分层抽样(每个二级疾病簇选取20例,并优先考虑三级疾病多样性),构建了最终的LiveClin基准。
5. 第四阶段:模型评估与分析 研究团队在LiveClin上对26个领先的大模型进行了全面评估,包括专有模型(如GPT-5、O3)、开源通用大模型(如Qwen2.5-VL)和医学专用大模型(如MedGemma)。评估采用零样本(Zero-shot) 和对话式协议,即模型在回答后续问题时能看到完整的对话历史,以模拟真实的连续会诊场景。主要评估指标是病例准确率(Case Accuracy),即一个病例的所有顺序问题都必须回答正确,该病例才算正确,这是一个非常严格的标准。此外,团队还对100个随机样本进行了人类专家基准测试,记录了住院医师、主治医师和主任医师的准确率。
三、 主要研究结果
1. 基准构成与特性 最终的LiveClin基准包含1,407个独特临床病例和6,605个问题(平均每例4.69个问题)。基准具有以下关键特性: * 覆盖完整临床路径:问题分布动态模拟真实诊疗流程。早期问题集中于“表现与评估”(占比96.2%),中期转向“诊断与解读”和“治疗策略”,后期则聚焦“随访”和“并发症管理”。 * 广泛的疾病覆盖:涵盖16个ICD-10章节,以肿瘤(19.8%)、神经系统(9.9%)和消化系统(9.3%)为主。 * 丰富的多模态内容:所有病例均包含多模态信息,41.9%的问题需要直接解读图像或表格。数据集共包含3,757张图像(涵盖CT、X光、MRI、病理切片等)和634张表格(如检验结果、监测数据)。
2. 整体性能评估 评估结果揭示了医疗AI能力的清晰层级和巨大挑战: * 性能鸿沟:所有模型在LiveClin上的表现均远未达到完美。表现最好的专有模型O3和GPT-5,其病例准确率也仅为35.7%左右,凸显了该基准的难度。 * 人类专家基准:主任医师的准确率最高,主治医师次之,两者均显著优于大多数模型。仅有个别顶级模型(如GPT-5和O3)的表现略微超过了主治医师,但仍与主任医师存在差距。这为模型性能提供了现实的“天花板”参考。 * 模型类别对比:专有模型总体领先,但开源模型正在迅速追赶。大规模开源模型如InternVL-3.5-241b已接近领先的专有模型,而高效设计的模型如GLM-4V-9b甚至超越了部分较弱的专有模型(如GPT-4o)。研究还发现,单纯依赖模型规模的扩大或通用版本的升级,并不总能带来临床推理能力的提升(例如Claude 3.5 Sonnet优于其后续版本3.7 Sonnet),这凸显了进行针对性、领域特异性优化的必要性。
3. 细粒度深入分析 * 失效模式分析:不同模型在临床路径的不同阶段表现出特有的弱点。顶级专有模型(如O3)的失误多集中在路径中段的“诊断与解读”阶段,此时认知负荷最高。开源医疗模型则倾向于在路径后期(“随访”阶段)出现错误,表明其在长上下文信息保持方面存在崩溃。通用模型则在流程初期就容易出错,显示出从初始临床表现进行有效推理的困难。 * 领域特异性表现:模型在不同医学专科的表现差异显著。例如,在精神与行为障碍、内分泌疾病等逻辑相对清晰的领域表现较好;而在需要复杂综合能力的肿瘤学领域,所有模型普遍表现不佳。 * 多模态推理能力:模型在解读结构化数据(如图表)时表现相对自信(准确率约75.1%),但在需要专家级解读的模态上表现较差,如病理学(59.6%)和生物信号(53.6%)。即使是顶级模型,在面对看似简单的人口统计表格时也可能出错,揭示了基础鲁棒性仍是关键挑战。
4. 智能体工作流消融研究 研究验证了其AI-人类协作工作流的有效性。与纯人工编写相比: * 仅生成器(Generator):将时间和财务成本降低了近两个数量级,并将“简单”问题的比例从医生的38.5%降至16.5%。 * 生成器-评论员(Generator-Critic):在保持低成本的同时,将经医生验证的准确率从84.5%提升至93.0%,并将“简单”问题比例进一步降至5.5%,证明了迭代优化对生成具有挑战性且高质量内容的关键作用。 * 裁判(Judge)智能体:虽然使通过率名义上从93.0%降至89.5%,但这实际上是质量标准更加严格的体现。它为医生审核提供了结构化的审计轨迹,帮助识别细微缺陷,从而提升了整体质量保证的严谨性。
四、 研究结论与价值
LiveClin的推出标志着医疗大模型评估从静态知识测试向动态、应用型临床推理评估的范式转变。本研究的主要结论与价值在于: 1. 提供了一个可靠、动态的评估标准:通过基于最新病例报告、每半年更新一次的机制,LiveClin从根本上解决了数据污染和知识过时问题,为社区提供了一个能够持续、真实反映模型临床推理能力的“试金石”。 2. 揭示了医疗AI的能力现状与局限:评估结果清晰地表明,即使最先进的模型,其处理完整、复杂、动态临床路径的能力仍非常有限(最高病例准确率仅35.7%),与人类专家(尤其是主任医师)存在显著差距。这为未来模型的发展指明了方向:不仅需要提升通用能力,更需在临床序列推理、长上下文管理和多模态深度融合等方面进行针对性优化。 3. 提出并验证了高效的基准构建方法论:研究所采用的AI-人类协作工作流,在保证医学严谨性的前提下,大幅提升了构建大规模、高质量临床评估内容的效率和可扩展性,为未来类似基准的创建提供了可复用的范式。 4. 促进了医疗AI向实用化、安全化发展:通过模拟真实的临床路径,LiveClin引导模型开发者关注其在接近实际应用场景中的表现,而不仅仅是静态知识问答。这对于推动医疗AI安全、有效地整合到临床实践中具有重要的指导意义。
五、 研究亮点
六、 其他有价值的内容
研究还对基准的潜在偏差进行了评估。由于病例报告更倾向于报道罕见或疑难病例,团队分析了模型在“常见病”和“罕见病”子集上的表现。结果显示,大多数模型的准确率差异在5个百分点以内,排名基本保持稳定,且更强模型受罕见性影响更小,表明罕见性对总体评估结果的影响有限。同时,作者也承认了数据源(PubMed)可能存在的地理、语言覆盖偏差,并呼吁未来工作应纳入更多样化的数据以提升全球代表性。