分享自:

在放射学中通过大型推理模型进行结论推理所带来的诊断与解读增益

期刊:npj Digital MedicineDOI:10.1038/s41746-025-02285-8

本研究由来自中国中南大学湘雅二医院(Ruixin Wang, Jinghang Wang, Yisong Wang, Sihong Huang, Wei Zhao, Jun Liu)、常德市第一人民医院(Chao Zheng)、昆山市第一人民医院(Xiaohui Liu)、河海大学(Guoping Tan)、中南大学湘雅医学院附属肿瘤医院(Zhiyuan Wang)和湖南大学(Shaoliang Peng)的研究团队共同完成。研究成果于2026年发表在学术期刊 *npj Digital Medicine*(文章ID:10.1038/s41746-025-02285-8)上。

学术背景 本研究属于医学人工智能与放射学交叉领域,具体聚焦于利用大语言模型(LLM)辅助放射科报告生成。在放射学实践中,撰写“印象”(Impression)部分——即基于影像所见(Findings)进行综合、优先排序和整合,形成临床诊断印象——是一项核心但繁重且易出错的任务。研究表明,日常放射学实践中存在3-5%的错误或差异率,其中,遗漏与肿瘤分期和治疗相关的细微次要发现(如小转移灶)是一个公认的挑战。当前,基于人工智能(AI)的影像所见识别技术已相对成熟,但印象生成仍是自动化报告生成流程中的瓶颈。现有的大语言模型在生成印象时,通常仅输出结论,缺乏解释其推理过程的透明度,这限制了临床信任,并且可能导致遗漏重要的临床信息。

近年来,出现了像OpenAI o1-like的大型推理模型(Large Reasoning Model, LRM),例如开源的DeepSeek-R1。这类模型通过在推理时进行更多“思考”(test-time compute),并输出显式的、逐步的推理过程,在数学和编程任务上展现了卓越的推理能力。初步研究显示,LRM在放射学印象生成任务上具有潜力,可与顶尖模型竞争。然而,先前的研究主要评估了LRM最终结论的质量(如诊断准确性),而缺乏对“推理过程本身”如何影响诊断完整性、可解释性和临床可用性的系统性评估。

因此,本研究的目的是:系统性地评估LRM(以DeepSeek-R1为代表)生成的“推理过程”在肿瘤影像学印象生成中的作用。研究旨在回答:与模型自身的纯结论输出以及传统的非推理大语言模型相比,显式的推理过程是否能提升诊断的完整性、可解释性和临床可靠性?

研究设计与详细流程 本研究是一项回顾性、多中心的模型评估研究,包含模型层面比较和人机交互(Human-in-the-loop)读者研究两部分,主要流程如下:

  1. 数据收集与准备

    • 主要数据集:从中国三家医院(每家300例)回顾性收集了共900例肿瘤放射学报告,涵盖乳腺癌、肺癌和结直肠癌,影像模态包括CT、MRI和乳腺X线摄影(MG)。所有报告均经过病理证实,并提取了“影像所见”部分作为模型输入,将原始放射科医生撰写的“印象”部分作为评估的参考标准(金标准)。
    • 跨语言验证集:从公开英文语料库MIMIC-IV-Note v2.2中构建了一个包含90例癌症病例的英文数据集(MIMIC-Cancer-90),用于测试模型的跨语言泛化能力。
    • 数据预处理:将中文和英文的“影像所见”文本分别构建成提示词(Prompt),输入给模型。
  2. 模型与输出定义

    • 代表模型:选择开源模型DeepSeek-R1作为大型推理模型(LRM)的代表。同时,选择两个先进的非推理大语言模型作为对照:开源的DeepSeek-V3_0324和专有的GPT-4.5。
    • 输出类型:DeepSeek-R1的输出包含两部分:一是包裹在<think></think>标签内的“推理过程”(标记为DeepSeek-R1 (rea.));二是紧随其后的“最终结论”(标记为DeepSeek-R1 (con.))。本研究将这两部分分开提取和评估,以专门研究推理过程本身的贡献。对于两个非推理模型,则直接使用其生成的整个文本来作为印象。
  3. 评估指标与流程

    • 诊断指标:由两名高年资放射科医生独立评估,旨在量化四种常见的肿瘤放射学诊断错误:
      1. 遗漏主要诊断(Missed Primary Diagnoses, MPD):完全未识别出原发恶性肿瘤。
      2. 遗漏次要诊断(Missed Secondary Diagnoses, MSD):完全未识别出肿瘤相关的次要病灶(如淋巴结转移、邻近组织侵犯、远处器官转移)。
      3. 主要误诊(Primary Misdiagnoses, PMISD):对原发器官内的病变进行了错误分类(如良恶性判断错误、亚型或位置错误)。
      4. 次要误诊(Secondary Misdiagnoses, SMISD):将其他器官或部位的良性病变误分类为恶性肿瘤或转移灶。
    • 定性指标:由三名高年资放射科医生采用5点李克特量表(1=强烈不同意,5=强烈同意)对模型输出的四个维度进行盲法评分:
      1. 全面性(Comprehensiveness):是否涵盖了所有相关的影像所见和临床考量。
      2. 可解释性(Explainability):结论是否基于特定的影像所见合理生成。
      3. 简洁性(Conciseness):是否为从所见中提炼的简洁总结,无无关或冗余文本。
      4. 无偏性(Unbiasedness):是否不会在解读时误导诊断或治疗。
    • 评估过程:将900例中文报告和90例英文报告分别输入三个模型。对于每个病例,评估者对比模型输出与金标准,记录诊断错误(二元判断),并对输出质量进行评分。出现分歧时,由第三名高年资放射科医生仲裁。
  4. 人机交互读者研究

    • 参与者:六名放射科医生,包括三名低年资(<10年经验)和三名高年资(≥10年经验)医生。
    • 材料:从900例中文病例中选取54例(每家医院18例,覆盖三种癌症和三种模态)。
    • 任务与指标:每位医生在盲态下评估DeepSeek-R1的两种输出(推理过程和纯结论)。评估维度包括:
      1. 信息完整性(Information Completeness):3级序数量表(1-3分)。
      2. 推理帮助性(Reasoning Helpfulness):5点李克特量表(1-5分)。
      3. 短期可编辑性(Short-term Editability):3级序数量表(1-3分)。
    • 效率分析:记录每位医生评估每个病例所花费的时间。
  5. 数据分析

    • 采用McNemar检验比较模型间的诊断错误率差异。
    • 采用配对t检验比较模型间定性评分和人机交互研究中评分及时间的差异。
    • 计算错误率的95%置信区间(Wilson score区间)。
    • 使用Gwet‘s AC1评估评分者间一致性。
    • 对所有癌症类型、影像模态和医院进行亚组分析,以检验结果的一致性。

主要结果 1. 推理过程 vs. 纯结论(DeepSeek-R1内部比较): * 诊断性能:在900例中文报告中,DeepSeek-R1的推理过程(DeepSeek-R1 (rea.))在所有四项诊断错误指标上均显著优于其自身的纯结论输出(DeepSeek-R1 (con.))。例如,在遗漏次要诊断(MSD)上,推理过程的错误率为3.22%(29例),而纯结论的错误率高达23.11%(208例)(p < 0.001)。这表明显式推理能极大减少对关键次要发现的遗漏。 * 生成质量:推理过程在全面性、可解释性和无偏性三个维度上的评分均显著高于纯结论(p < 0.001)。然而,在简洁性上,推理过程评分显著更低(中位数2.667 vs. 5.000),因为其输出更长、更详细。 * 亚组与跨语言验证:上述优势在乳腺癌、肺癌、结直肠癌、CT、MRI、MG等所有亚组中均保持一致。在英文MIMIC-Cancer-90数据集上,推理过程同样表现出更低的MSD错误率和更高的全面性、可解释性评分,证实了其跨语言泛化能力。

  1. 推理过程 vs. 非推理模型

    • 诊断性能:DeepSeek-R1 (rea.) 在MPD、MSD和SMISD上的错误率显著低于两个非推理模型(DeepSeek-V3和GPT-4.5)(p < 0.01)。特别是在识别次要病灶(MSD)方面,推理模型的优势非常明显。
    • 生成质量:DeepSeek-R1 (rea.) 在可解释性上显著优于两个非推理模型,在全面性上显著优于DeepSeek-V3,与GPT-4.5相当。在无偏性上略有优势。在简洁性上同样得分最低。
    • 结论:显式推理不仅相对于模型自身的结论有改进,相比传统的非推理模型架构也带来了诊断优势,尤其是在识别次要病灶方面。
  2. 人机交互读者研究结果

    • 信息完整性与推理帮助性:六名放射科医生中,绝大多数认为推理过程在信息完整性和推理帮助性上显著优于纯结论输出(p < 0.05)。推理过程提供了更清晰的诊断逻辑路径。
    • 短期可编辑性与效率:纯结论输出在短期可编辑性上评分更高(更容易在短时间内修改为可交付的临床印象),且评估所需时间显著更短。
    • 经验分层:低年资医生从推理过程中获益更大(在完整性和帮助性上的提升幅度更明显),但付出的时间成本也更高。高年资医生在两种输出条件下的表现则相对稳定。
  3. 残余错误与“结论失败”现象

    • 残余错误:尽管推理过程减少了错误,但仍存在一些残余诊断错误。最常见的错误包括将良性实体(如肝血管瘤、肺散在结节、肝多发囊肿)过度诊断为转移灶,以及对某些肿瘤相关发现(如阻塞性肺炎、乳腺癌胸肌侵犯)识别不足。
    • 结论失败:研究定义并量化了“结论失败”(Concluding Failure)现象,即模型的推理过程在诊断上是正确的,但最终得出的结论却与之矛盾。DeepSeek-R1在MSD上的结论失败率高达19.33%。这揭示了推理过程与结论生成之间存在的可靠性差距,可能源于强化学习奖励机制与放射学任务需求不匹配,或模型对长输入存在位置偏置(positional bias)。

结论与意义 本研究系统性地证明,在肿瘤影像学印象生成任务中,大型推理模型(LRM)生成的显式推理过程,相较于模型自身的纯结论输出以及传统的非推理大语言模型,能够显著提升诊断的完整性和可解释性。具体而言,推理过程能有效减少对次要诊断的遗漏,并提供可追溯的决策路径,增强了输出的透明度和可信度。

科学价值与应用价值: * 科学价值:本研究提出了一个评估推理赋能模型的新范式,即不仅评估最终结果,更分析导致这些结果的过程级行为。这为未来医学人工智能系统的可解释性和安全性评估提供了分析基础。研究量化了“推理过程”本身的诊断价值,并揭示了“结论失败”这一关键问题。 * 应用价值:研究表明,显式推理可以作为连接人类与人工智能决策的桥梁。推理轨迹可以作为一种“可审计的证据”整合到报告系统中,帮助放射科医生(尤其是低年资医生)理解模型逻辑、核对原始影像数据、并标记潜在的不一致。这有望提升报告透明度、辅助教学以及多学科讨论的一致性。最终,基于推理的系统可能从报告生成器演变为增强(而非取代)放射科医生分析工作流程的交互式诊断助手。

研究亮点 1. 重要的发现: * 首次系统评估并证明了LRM的“推理过程”本身在放射学印象生成中具有独立的诊断增益,特别是在捕获容易被遗漏的次要发现方面。 * 揭示了LRM中存在的“结论失败”现象,即推理正确但结论错误,这对未来模型的可靠性和临床部署提出了重要警示。 * 通过人机交互研究,量化了推理透明度带来的临床益处(提高完整性、清晰度)与工作流成本(增加阅读/编辑时间)之间的权衡,并发现低年资医生受益更明显。

  1. 方法的新颖性

    • 研究设计巧妙,通过比较同一模型(DeepSeek-R1)的“推理过程”与“纯结论”,以及与非推理模型的对比,清晰剥离并突出了“推理”这一要素的贡献。
    • 构建了涵盖多中心、多癌种、多模态的中文数据集以及一个英文验证集,增强了结果的普遍性和说服力。
    • 定义了针对肿瘤放射学的四种具体诊断错误类型(MPD, MSD, PMISD, SMISD),使得评估更为精细和临床相关。
  2. 研究对象的特殊性

    • 专注于放射学工作流中自动化程度低、错误率高且对临床决策至关重要的“印象生成”环节。
    • 以开源的大型推理模型DeepSeek-R1为代表进行研究,增强了研究的可重复性和透明度,其发现也可能适用于其他采用类似推理范式的模型。

其他有价值的内容 研究讨论了将推理过程用于临床所面临的挑战与未来方向: 1. 工作流效率与简洁性:推理过程输出冗长,增加了医生的认知负担和审阅时间。未来需探索推理长度控制、自适应思考等方法来平衡完整性与效率。 2. 残余诊断错误:显式推理不能完全弥补领域先验知识的缺失或空间理解不足。需要整合放射学特异性知识和结构化空间推理机制。 3. 推理-结论对齐:针对“结论失败”问题,未来LRM需要探索与放射学任务对齐的优化、针对性提示工程以及自我修正机制,确保最终输出与其底层推理保持一致。 4. 研究局限性:包括回顾性研究设计、未进行端到端图像解读评估、以及主要基于单一模型(DeepSeek-R1)等。未来需要前瞻性临床测试、工作流整合以及扩展至更多LRM和视觉-语言多模态系统。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com