LiveClin：一个抗数据污染、动态更新的临床路径基准测试

分享自：
LiveClin：一个抗数据污染、动态更新的临床路径基准测试

生物医学工程
信息科学
期刊:ICLR
LiveClin：一个无泄漏的实时临床基准——医疗大模型评估的范式革新
本研究由Xidong Wang（香港中文大学（深圳）及蚂蚁集团）、Shuqi Guo（香港中文大学（深圳））、Yue Shen、Junying Chen、Jian Wang、Jinjie Gu（蚂蚁集团）、Ping Zhang（俄亥俄州立大学）、Lei Liu（蚂蚁集团及浙江大学）以及Benyou Wang（香港中文大学（深圳））共同完成。该研究以“LiveClin: A Leakage-Free Live Clinical Benchmark”为题，发表于ICLR 2026会议。
一、 学术背景与研究目标
本研究隶属于医学人工智能与大型语言模型（Large Language Models, LLMs）评估交叉领域。随着医疗大模型（Medical LLMs）在辅助诊断和个性化护理方面展现出巨大潜力，对其临床推理能力进行准确、可靠的评估变得至关重要。然而，当前主流的医疗大模型评估体系存在两大根本性缺陷：一是数据污染（Data Contamination），即评估基准的题目和答案可能已被纳入模型的训练数据，导致模型在“见过”的题目上取得虚高分数，无法反映其真实泛化能力；二是知识过时（Knowledge Obsolescence），医学知识快速更新，静态的基准无法捕捉最新的临床实践和医学进展。此外，现有基准多为单轮、孤立的问答形式，与现实中患者从初诊、检查、诊断、治疗到长期随访的完整临床路径（Clinical Pathway） 脱节，无法评估模型在动态、多模态信息整合下的序列推理能力。
为此，研究团队旨在构建一个能够应对上述挑战的新型评估框架。本研究的目标是开发并发布LiveClin——一个动态、抗污染、基于真实临床实践的多模态基准。其核心设计原则是：1）实时性：基准内容持续更新，确保评估基于最新的医学知识；2）抗污染：通过动态更新机制，从设计上抵御数据污染问题；3）临床真实性：模拟完整的患者诊疗流程，评估模型在复杂、多阶段临床场景中的综合能力。
二、 详细研究流程与方法
LiveClin的构建是一个系统性的工程，包含三个核心阶段，并辅以一套严谨的临床分类体系。
1. 临床分类体系（Clinical Taxonomy） 在构建基准之前，研究团队首先建立了一个三级分类框架，用于对评估内容进行细粒度组织与分析。第一级基于国际疾病分类（ICD-10）章节，合并了16个主要的临床专科领域（如肿瘤、神经系统、消化系统），用于宏观性能分析。第二级基于中国国家医疗保障局（NHSA）标准，定义了72个疾病簇，用于亚专科层面的分析。第三级则细化到单个ICD-10编码，支持诊断级别的精细化评估。这套分类体系为后续的病例采样、性能分析和结果解释提供了结构化基础。
2. 第一阶段：病例构建 此阶段目标是建立一个高质量、时效性强、疾病覆盖均衡的临床病例语料库。 * 病例筛选：研究团队从PubMed Central（PMC）开放获取子集中，以编程方式检索2025年上半年发表的所有病例报告（XML格式）。通过自建流水线解析文件，提取病例叙述、讨论部分，并将表格转换为Markdown格式，同时提取所有相关图表及其URL，为多模态评估做准备。 * 采样：为确保基准的代表性和平衡性，团队使用GPT-4.1对所有病例按三级分类体系进行自动分类。随后，采用分层抽样策略，目标是从72个二级疾病簇中，每个簇抽取30个独立病例，并优先考虑每个病例中三级疾病的多样性，以避免常见病的过度代表。最终，构建了一个包含2,150份高质量病例报告的初始语料库。
3. 第二阶段：试题生成 此阶段旨在将静态的病例报告转化为模拟完整临床路径的多步骤、多模态评估场景。研究团队创新性地采用了生成器-评论员（Generator-Critic）智能体架构（由O3模型驱动），以自动化方式大规模生成高质量、高挑战性的考题。 * 场景生成：生成器智能体首先为每个病例创建一个初始临床场景（仅包含患者就诊时的基本信息）。然后，它生成3至6个渐进式的多选题，每个问题有10个选项。每个问题被动态分配一个临床阶段标签（如“初步评估”、“诊断与解读”、“治疗策略”、“随访”等），并随着问题的推进，策略性地引入新的临床信息（如新的实验室结果、影像学图片），以测试模型整合动态信息的能力。 * 迭代优化：评论员智能体对生成的问题集进行自动化“同行评审”，评估其临床准确性和认知复杂度。若发现问题，评论员会提供反馈，生成器据此进行修订。此循环持续进行，直到问题集达到两个标准：100%的临床准确率，以及超过60%的问题具有高认知复杂度。如果在10轮内无法收敛，则该问题集被丢弃。此流程应用于2,150个病例，最终产生了2,092个高质量的问题集。
4. 第三阶段：质量检查 为确保医学内容的绝对准确性，此阶段实施了严格的多层质量保障协议，遵循“拒绝任何可能存在缺陷的问题”的保守原则。 * AI初步筛选：首先由一个裁判（Judge）智能体（同样基于O3）对生成的问题集进行预审。该智能体系统地区分“特权信息”（病例报告全文）和“考生可见信息”（问题中给出的信息），自主剔除存在根本性缺陷（如答案无法从给定信息推导）的问题。此步骤将候选问题集从2,092个减少到1,869个。 * 医生筛选：这是质量保证的核心环节，共涉及239名持证医师，分为两个阶段： * 标注阶段：由主治医师根据既定标准（事实一致性、逻辑可解性）评估每个问题。 * 检查阶段：由更资深的医生（主任/副主任医师）对标注结果进行复核。出现分歧时，启动修订循环直至达成一致。整个团队覆盖了广泛的专业领域，且病例被分配给对应专业的医生进行评审，确保了评估的领域适配性。所有材料被翻译成中文供医生评审。 * 经过总计1,772.18人工时的严格审核，最终生成了1,822个有效问题集。从中，通过分层抽样（每个二级疾病簇选取20例，并优先考虑三级疾病多样性），构建了最终的LiveClin基准。
5. 第四阶段：模型评估与分析 研究团队在LiveClin上对26个领先的大模型进行了全面评估，包括专有模型（如GPT-5、O3）、开源通用大模型（如Qwen2.5-VL）和医学专用大模型（如MedGemma）。评估采用零样本（Zero-shot） 和对话式协议，即模型在回答后续问题时能看到完整的对话历史，以模拟真实的连续会诊场景。主要评估指标是病例准确率（Case Accuracy），即一个病例的所有顺序问题都必须回答正确，该病例才算正确，这是一个非常严格的标准。此外，团队还对100个随机样本进行了人类专家基准测试，记录了住院医师、主治医师和主任医师的准确率。
三、 主要研究结果
1. 基准构成与特性 最终的LiveClin基准包含1,407个独特临床病例和6,605个问题（平均每例4.69个问题）。基准具有以下关键特性： * 覆盖完整临床路径：问题分布动态模拟真实诊疗流程。早期问题集中于“表现与评估”（占比96.2%），中期转向“诊断与解读”和“治疗策略”，后期则聚焦“随访”和“并发症管理”。 * 广泛的疾病覆盖：涵盖16个ICD-10章节，以肿瘤（19.8%）、神经系统（9.9%）和消化系统（9.3%）为主。 * 丰富的多模态内容：所有病例均包含多模态信息，41.9%的问题需要直接解读图像或表格。数据集共包含3,757张图像（涵盖CT、X光、MRI、病理切片等）和634张表格（如检验结果、监测数据）。
2. 整体性能评估 评估结果揭示了医疗AI能力的清晰层级和巨大挑战： * 性能鸿沟：所有模型在LiveClin上的表现均远未达到完美。表现最好的专有模型O3和GPT-5，其病例准确率也仅为35.7%左右，凸显了该基准的难度。 * 人类专家基准：主任医师的准确率最高，主治医师次之，两者均显著优于大多数模型。仅有个别顶级模型（如GPT-5和O3）的表现略微超过了主治医师，但仍与主任医师存在差距。这为模型性能提供了现实的“天花板”参考。 * 模型类别对比：专有模型总体领先，但开源模型正在迅速追赶。大规模开源模型如InternVL-3.5-241b已接近领先的专有模型，而高效设计的模型如GLM-4V-9b甚至超越了部分较弱的专有模型（如GPT-4o）。研究还发现，单纯依赖模型规模的扩大或通用版本的升级，并不总能带来临床推理能力的提升（例如Claude 3.5 Sonnet优于其后续版本3.7 Sonnet），这凸显了进行针对性、领域特异性优化的必要性。
3. 细粒度深入分析 * 失效模式分析：不同模型在临床路径的不同阶段表现出特有的弱点。顶级专有模型（如O3）的失误多集中在路径中段的“诊断与解读”阶段，此时认知负荷最高。开源医疗模型则倾向于在路径后期（“随访”阶段）出现错误，表明其在长上下文信息保持方面存在崩溃。通用模型则在流程初期就容易出错，显示出从初始临床表现进行有效推理的困难。 * 领域特异性表现：模型在不同医学专科的表现差异显著。例如，在精神与行为障碍、内分泌疾病等逻辑相对清晰的领域表现较好；而在需要复杂综合能力的肿瘤学领域，所有模型普遍表现不佳。 * 多模态推理能力：模型在解读结构化数据（如图表）时表现相对自信（准确率约75.1%），但在需要专家级解读的模态上表现较差，如病理学（59.6%）和生物信号（53.6%）。即使是顶级模型，在面对看似简单的人口统计表格时也可能出错，揭示了基础鲁棒性仍是关键挑战。
4. 智能体工作流消融研究 研究验证了其AI-人类协作工作流的有效性。与纯人工编写相比： * 仅生成器（Generator）：将时间和财务成本降低了近两个数量级，并将“简单”问题的比例从医生的38.5%降至16.5%。 * 生成器-评论员（Generator-Critic）：在保持低成本的同时，将经医生验证的准确率从84.5%提升至93.0%，并将“简单”问题比例进一步降至5.5%，证明了迭代优化对生成具有挑战性且高质量内容的关键作用。 * 裁判（Judge）智能体：虽然使通过率名义上从93.0%降至89.5%，但这实际上是质量标准更加严格的体现。它为医生审核提供了结构化的审计轨迹，帮助识别细微缺陷，从而提升了整体质量保证的严谨性。
四、 研究结论与价值
LiveClin的推出标志着医疗大模型评估从静态知识测试向动态、应用型临床推理评估的范式转变。本研究的主要结论与价值在于： 1. 提供了一个可靠、动态的评估标准：通过基于最新病例报告、每半年更新一次的机制，LiveClin从根本上解决了数据污染和知识过时问题，为社区提供了一个能够持续、真实反映模型临床推理能力的“试金石”。 2. 揭示了医疗AI的能力现状与局限：评估结果清晰地表明，即使最先进的模型，其处理完整、复杂、动态临床路径的能力仍非常有限（最高病例准确率仅35.7%），与人类专家（尤其是主任医师）存在显著差距。这为未来模型的发展指明了方向：不仅需要提升通用能力，更需在临床序列推理、长上下文管理和多模态深度融合等方面进行针对性优化。 3. 提出并验证了高效的基准构建方法论：研究所采用的AI-人类协作工作流，在保证医学严谨性的前提下，大幅提升了构建大规模、高质量临床评估内容的效率和可扩展性，为未来类似基准的创建提供了可复用的范式。 4. 促进了医疗AI向实用化、安全化发展：通过模拟真实的临床路径，LiveClin引导模型开发者关注其在接近实际应用场景中的表现，而不仅仅是静态知识问答。这对于推动医疗AI安全、有效地整合到临床实践中具有重要的指导意义。
五、 研究亮点
首创性：LiveClin是首个明确提出并实现“动态、抗污染、覆盖完整临床路径”的医疗大模型基准，填补了该领域的关键空白。
严谨性与规模：通过涉及239名医生的严格人工验证流程，确保了基准的医学准确性和高质量。最终发布的基准规模大（1,407病例，6,605问题），且疾病覆盖广泛、多模态内容丰富。
深入的诊断性分析：研究不仅提供了总体排名，还通过其分类体系进行了细粒度的失效模式、领域能力和多模态能力分析，为模型改进提供了极具价值的诊断性见解。
创新的构建方法：提出的生成器-评论员-裁判智能体工作流与人类专家审核相结合的方法，在质量、挑战性和成本效益之间取得了良好平衡，并被消融实验所验证。
可持续性与监控机制：设计了两年一次的更新周期和私有排行榜监控机制，确保了基准的长期生命力和防作弊能力。
六、 其他有价值的内容
研究还对基准的潜在偏差进行了评估。由于病例报告更倾向于报道罕见或疑难病例，团队分析了模型在“常见病”和“罕见病”子集上的表现。结果显示，大多数模型的准确率差异在5个百分点以内，排名基本保持稳定，且更强模型受罕见性影响更小，表明罕见性对总体评估结果的影响有限。同时，作者也承认了数据源（PubMed）可能存在的地理、语言覆盖偏差，并呼吁未来工作应纳入更多样化的数据以提升全球代表性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问