本篇论文是由天津医科大学肿瘤医院(Tianjin Medical University Cancer Institute and Hospital)的孙艺智(Sunyi Zheng)博士与赵楠楠(Nannan Zhao)博士作为共同第一作者,天津医科大学肿瘤医院的崔晓楠(Xiaonan Cui)博士与叶兆祥(Zhaoxiang Ye)教授作为共同通讯作者,联合荷兰格罗宁根大学医学中心(University Medical Center Groningen)等多个国内外机构的研究人员共同完成的一项原创性研究。该研究成果于2025年8月发表在放射学领域的顶级期刊Radiology上,论文标题为“Comparison of a Specialized Large Language Model with GPT-4o for CT and MRI Radiology Report Summarization”(中文译为:用于CT和MRI放射学报告总结的专业大语言模型与GPT-4o的比较)。
这项研究的学术背景聚焦于人工智能在医学,特别是放射学领域的应用。在放射科临床工作中,根据影像所见(findings)撰写一份准确、全面且简洁的印象/结论(impression)是报告流程中的关键步骤,直接影响到临床医生的诊断决策。然而,这一过程耗时耗力,并且在工作量大的情况下,可能导致印象部分与前面所见描述不一致。近年来,以GPT-4o为代表的大语言模型(Large Language Model, LLM)在医学文本处理中展现出潜力,例如在回答放射学考试问题和从自由文本报告中提取信息方面表现优异。但是,一个核心的科学问题尚未明确:一个为特定任务(如报告总结)专门设计的大语言模型,其性能是否会优于GPT-4o这样的通用大语言模型?因此,本研究旨在系统性地比较一个专门为放射学报告总结而开发的大语言模型(名为LLM-RadSum)与通用大语言模型GPT-4o(由OpenAI开发)在全面总结CT和MRI放射学报告方面的性能。
研究的详细工作流程包含多个严谨的步骤,主要涉及数据准备、模型开发、性能评估和模型比较。研究首先从五家医院回顾性收集了大量放射学报告,总计初始收集了超过325万份报告。在排除了随访报告以及缺少“所见(findings)”或“印象(impression)”部分的报告后,最终保留了1,062,466份符合标准的CT和MRI报告用于分析。这些数据主要来自天津医科大学肿瘤医院(标记为医院1),并按时间顺序以9:1的比例划分为训练集(956,219份报告)和内部测试集(106,247份报告)。此外,为了评估模型的泛化能力,研究还从另外四家医院(医院2至5)构建了一个外部测试集,包含17,091份报告。
该研究开发的核心是名为LLM-RadSum的专用大语言模型。其技术路线基于一个名为Llama 2(由Meta开发)的开源通用大语言模型架构。为了使其专业化于放射学报告总结任务,研究团队采用了监督式微调的方法。具体而言,模型在一个由近百万份报告所见和印象部分组成的配对数据集上进行训练。在微调过程中,采用了自回归方法,即模型学习根据给定的放射学“所见”文本,逐词预测生成对应的“印象”文本。在推理阶段,模型根据输入的“所见”部分,利用学习到的模式,逐步生成完整的印象总结。这一过程涉及了多头注意力机制和分组查询注意力等技术以提升效率,并应用了低秩自适应方法来实现轻量化的模型优化。
为了量化评估模型的性能,研究采用了一种基于最长公共子序列的F1分数作为主要指标。该指标通过比较模型生成的印象与放射科医生撰写的原始印象(作为金标准)之间的相似度,综合衡量了生成内容的精确率和召回率。F1分数的范围在0到1之间,分数越高表示生成的总结与参考标准越接近。研究使用该指标在内部测试集、外部测试集以及一个专门用于人工评估的数据子集上对LLM-RadSum进行了评估。
为了进行公平的模型比较,研究团队从一个包含1800份报告的“人工评估集”中随机抽取数据,该集合平衡了CT和MRI两种模态,以及胸部、腹部、盆腔、颈部、头部和乳腺六个解剖部位。关键的比较工作涉及两方面:一是计算LLM-RadSum和GPT-4o在该评估集上的F1分数;二是邀请了三位资深放射科医生和两位资深临床医生对两个模型生成的印象进行独立的人工盲法评估。人工评估从四个维度进行,均采用四级评分制:事实一致性(Factual Consistency, 生成的印象是否准确反映原始报告内容)、印象连贯性(Impression Coherence, 格式、逻辑和措辞是否专业清晰)、医疗安全性(Medical Safety, 报告是否可直接签名使用或需要多少修改)以及临床实用性(Clinical Use, 总结是否充分回答了临床问题)。统计方面,使用t检验比较两组模型的F1分数差异,并采用多变量逻辑回归分析以探讨患者年龄、性别、成像模态、解剖部位和印象长度等因素对模型获得“好”的F1分数(>0.5)的影响。
研究的主要结果如下:在性能指标方面,LLM-RadSum在内部测试集、外部测试集和人工评估集上的中位F1分数分别为0.75、0.44和0.58,表明其在内部数据和跨机构数据上都具备一定的总结能力,尽管在外部数据上性能有所下降,这归因于不同医院报告风格和术语使用的差异。在与GPT-4o的直接对比中,结果显示出专业模型的显著优势。在F1分数上,LLM-RadSum的中位F1分数(0.58)显著高于GPT-4o(0.30),差异具有高度统计学意义(P < .001)。这一优势在所有解剖部位、成像模态、性别、年龄组和印象长度分组中均一致存在(所有P < .001)。
更为重要的是人工评估的结果。在事实一致性方面,放射科医生认为LLM-RadSum生成的印象中有88.9%(1601/1800)与原始报告完全一致,而GPT-4o的这一比例仅为43.1%。在印象连贯性上,LLM-RadSum有97.8%的输出获得了认可。在医疗安全性方面,约81.5%(1467/1800)的LLM-RadSum输出可直接签字使用,而GPT-4o有74.7%的输出需要经过轻微修改。在临床实用性方面,LLM-RadSum有91.3%的输出能充分应对临床问题,高于GPT-4o的72.2%。综合来看,超过81.5%的LLM-RadSum输出在四个维度上均符合资深专家的标准,而GPT-4o至少有27.8%(501/1800)的输出在这些方面需要调整。
多变量分析进一步揭示了影响LLM-RadSum性能的因素。例如,MRI报告的总结表现优于CT报告;对老年患者报告的总结表现稍弱;在乳腺和腹部区域的总结表现相对胸部区域较差。这些发现为未来模型的优化方向提供了线索。
基于以上结果,研究得出的核心结论是:与通用大语言模型GPT-4o相比,为放射学报告总结专门设计的大语言模型(LLM-RadSum)在生成报告摘要方面具有更好的性能。使用专用模型而非通用模型,能够产生更准确、更符合医学专家偏好的报告总结,这为提高放射科报告工作流程的效率和一致性提供了有力工具。
本研究的亮点在于:第一,研究问题的前沿性与明确性:它直接回应了当前AI放射学应用中的一个关键疑问——专用模型是否优于通用模型,结论明确且有数据支撑。第二,大规模、多中心的真实世界数据:研究使用了来自五家医院、涵盖近百万份报告的庞大且多样的数据集进行训练和测试,增强了结果的可靠性和普适性。第三,全面且严谨的评估体系:不仅使用了自动化的F1分数指标,还引入了多维度、多位资深专家的人工盲法评估,从临床实用性和安全性的深层次角度验证了模型价值。第四,模型开发的透明度与可复现性:研究基于开源的Llama 2模型进行专业化微调,并公开了代码,有利于学术界的验证和后续开发。第五,结果具有显著的临床意义:研究表明专用模型能显著减少需要人工修改的错误,有望减轻放射科医生的工作负担,并提升报告质量的一致性。
此外,论文也坦率地指出了研究的若干局限性,包括:模型训练所用报告并非总是指向特定临床问题;模型未处理随访报告;未对模型生成随访建议的能力进行定量分析;模型倾向于模仿放射科医生的真实写作风格,因此在信息不足或明显良性发现时可能不会提供明确的诊断或管理建议;模型对复杂病例(如老年患者)的总结性能有待提升。作者在文末展望了未来工作方向,如整合随访报告与既往报告以生成更全面的印象、研究总结随访建议的临床价值、开发针对特定患者亚组(如老年人)的模型,以及计划通过前瞻性研究将模型部署到真实临床环境中,进一步评估其对诊断决策和工作流程整合的影响。
总而言之,这项研究为放射学人工智能领域提供了重要的实证证据,证明了针对特定医疗任务进行深度专业化的大语言模型具有超越通用大语言模型的潜力,为未来开发更可靠、更高效的临床辅助工具奠定了坚实的方法学基础和性能基准。