关于AI生成放射学印象的评估研究:一项多利益相关者视角的学术报告
本研究由Sharang Phadke(第一作者,来自Rad AI)、Nivedita Suresh、Zachary Allen、Anjali Balagopal、Stephen Chan、Anish Shah、Megan Winter、Cesar Lam、Trevor Rose、Cyrillo Araujo、Abraham Ahmed、Iman Imanirad、Lincoln Berland及通讯作者Andrew Del Gaizo(来自Moffitt癌症中心)共同完成。该研究已于2026年发表在*NPJ Digital Medicine*期刊上。
一、 学术背景与研究目的
本研究属于医学人工智能与放射信息学交叉领域。放射学报告中的“印象”(Impression)部分是诊断成像报告的核心,是放射科医生与临床医生、患者之间沟通的关键,它将复杂的影像发现提炼为可指导患者管理的临床见解。然而,撰写高质量的印象部分需要放射科医生投入大量的认知努力和时间,在病例量激增和人力资源短缺的背景下,这加剧了医生的职业倦怠。此外,标准化的、数据丰富的印象对于构建影像生物样本库、支持精准医疗也具有重要意义。
近年来,人工智能(AI)在自动化生成放射学印象方面展现出潜力。早期研究(如Zhang等,2018)表明,神经序列到序列模型生成的印象在67%的病例中被放射科医生评为与人类撰写者相当。然而,现有评估存在显著空白:多数研究评估整个AI生成的报告,而非专门聚焦于临床意义更重大的“印象”部分;评估多限于胸部X光等单一模态或采用过于宽松的标准;且评估视角大多局限于放射科医生,忽略了依赖印象的其他关键利益相关者(如肿瘤科医生)的看法。
因此,本研究旨在填补这些空白,通过一项全面的、多利益相关者的评估,比较三种不同来源生成的放射学印象的质量:1) 原始放射科医生撰写的印象;2) 基于机构数据微调的、特定领域(domain-specific)的定制AI模型生成的印象;3) 通用大语言模型(general-purpose large language model)生成的印象。研究目标是评估这些印象在不同临床医生群体中的接受度、质量差异以及对患者安全的潜在影响。
二、 详细研究流程
本研究是一项回顾性、盲法评估研究,在美国一家大型学术癌症中心(Moffitt Cancer Center)进行。研究流程严谨,包含以下几个主要步骤:
1. 病例选择与数据准备: - 研究对象: 研究队列包含200份肿瘤学计算机断层扫描(CT)检查报告。 - 抽样方法: 这些报告来自4位腹部影像亚专业的放射科医生,每位医生随机抽取其于2023年2月7日至2024年8月7日期间解读的50份报告。研究期间,未使用任何AI辅助印象生成工具,所有选定的报告均未用于任何AI模型的训练或微调。 - 数据处理: 所有报告在分析前均经过去标识化处理。
2. AI印象生成: 为每份原始报告生成两个额外的印象版本。 - 定制AI模型: 采用一种专有的多组件方法,其核心是一个放射学专用的印象生成模型。该模型的关键创新在于使用了针对每位参与研究的放射科医生个人历史报告(2-5年数据)进行微调的策略。这旨在使模型学习并适应该医生的个人写作风格和判断偏好。 - 通用大语言模型: 使用商业可用的通用大语言模型(GPT-4.1),采用零样本提示(zero-shot prompting) 策略。提示词经过结构化设计,聚焦于放射学任务,包含角色提示、逐步推理指导和结构化输出约束,但未提供上下文示例或进行领域特定微调。 - 输入一致性: 两个AI系统接收相同的输入,包括原始报告的“发现”部分、临床指征和成像协议信息。
3. 评估框架与执行: 印象由三组临床医生进行评估: - 原始撰写放射科医生: 4位,各评估自己撰写的50个病例(共200例)。 - 独立放射科医生: 3位,各随机评估80个病例(覆盖全部200例,其中40例为双重评分用于评估一致性)。 - 肿瘤科医生: 3位,评估分配方式同独立放射科医生。 - 盲法设计: 所有评估者均不知晓所评估印象的来源。评估在数据截止至少6个月后进行,以尽量减少回忆偏倚。 - 评估指标: - 质量评分: 放射科医生从完整性(completeness)、正确性(correctness)、简洁性(conciseness) 三个维度,使用经过验证的3点Likert量表进行评分。肿瘤科医生额外评估清晰度(clarity)和临床效用(clinical utility)。 - 患者伤害评估: 所有临床医生使用已发表的量表评估潜在患者伤害的可能性(likelihood)和程度(extent)。 - 偏好选择: 对于每个病例,评估者需选择他们更偏好的印象(三选一),并可提供自由文本评论以解释其偏好。 - 评估方法特点: 研究未对评估者进行正式的培训或校准阶段,旨在捕捉不同临床医生群体在真实世界中的主观视角,避免指令偏差。
4. 数据分析方法: - 定量特征分析: 计算了各类型印象的平均字数、印象条目数(以换行符分隔的独立陈述)以及AI生成时间。 - 质量评分比较: 在每个评估者组内,对三种印象类型的质量评分进行两两比较,使用Wilcoxon符号秩检验,计算p值和效应大小r。 - 偏好分析: 汇总各评估者组对不同印象类型的偏好比例,使用两比例z检验比较偏好差异,并计算Cohen‘s h效应大小。 - 自由文本分析: 对附带的自由文本评论进行归纳式主题分析,以理解偏好背后的原因。 - 评估者间信度: 对于有重叠病例的独立放射科医生和肿瘤科医生组,使用Krippendorff‘s α计算评估者间信度,以衡量评分的一致性程度。
三、 主要研究结果
1. 印象偏好差异显著: - 原始放射科医生: 强烈偏好自己撰写的印象和定制AI印象,而非通用模型印象。与自己印象相比,定制AI印象的偏好差异为9.0%(效应量h=0.18,p=0.0716),未达统计学显著性,表明两者接近。但与通用模型印象相比,偏好差异巨大(分别为48.5%和39.5%,h>1.0,p<0.001)。 - **独立放射科医生:** 在原始印象和定制AI印象之间**没有**表现出有意义的偏好(差异-1.3%,h=-0.03,p=0.78)。但与原始放射科医生一样,他们强烈偏好这两者而非通用模型印象(偏好差异约30%,h≈0.67-0.69,p<0.001)。 - **肿瘤科医生:** 对三种印象类型**均未**表现出统计学上的显著偏好(所有比较p>0.20,效应量h很小)。这表明从临床使用者的角度看,不同类型的印象在整体可接受性上可能没有本质区别。
2. 定量特征与质量评分: - 长度与内容: 通用模型生成的印象显著更长(平均75.1词 vs. 原始41.2词,定制模型34.2词),包含更多印象条目(6.3条 vs. 原始2.9条,定制模型3.0条)。定制模型生成速度更快(1.9秒 vs. 通用模型11.6秒)。 - 质量评分模式: - 完整性: 通用模型印象被两组放射科医生评为略更完整(效应量r=0.18-0.39,p<0.001-0.01),但这付出了巨大代价。 - 简洁性: 通用模型印象在简洁性上得分显著更低(r=0.85-0.87,p<0.001),说明其过于冗长。 - 正确性/清晰度/临床效用: 在原始印象与定制AI印象之间,这些维度均未发现有意义差异。肿瘤科医生认为通用模型印象略更清晰,但并未认为其更具临床效用。 - 核心发现: 定制AI印象在大多数质量维度上与原始放射科医生印象表现相当。唯一的微小差异是,原始撰写者认为自己写的印象比定制AI印象略更完整(r=0.22,p=0.0016),而独立放射科医生未发现此差异。
3. 患者安全与评估者间差异: - 患者伤害: 所有印象类型的潜在伤害评分都很低(可能性与程度评分均接近1,表示“无/低伤害”),且在不同模型间未发现具有临床意义的差异。 - 评估者间信度低: 分析显示,即使在同质专业群体内,评估者对印象质量的判断也存在高度主观性。信度最高的是独立放射科医生对简洁性的评估(α=0.67,中等一致),最低的是正确性和临床效用(α值接近0或为负值,表示一致性极差或低于偶然)。这挑战了存在单一客观“黄金标准”印象质量的假设。
4. 自由文本分析: 对偏好评论的主题分析显示,驱动偏好的最主要原因是印象的详细程度(50%),其次是清晰度、特异性或优先排序(24%),以及建议或临床推断的存在(12%)。
四、 研究结论与价值
本研究得出结论:经过领域特定微调的AI生成的放射学印象,在质量和安全性上可以达到与人类撰写印象相媲美的水平。 然而,印象质量是高度主观且依赖于背景的,不同利益相关者(放射科医生 vs. 临床医生)的偏好存在明显分歧。放射科医生(尤其是报告原作者)强烈偏好与其风格一致的、简洁的印象,而通用大语言模型生成的冗长、详尽印象虽在完整性上得分略高,但因其缺乏重点和简洁性而被放射科医生显著排斥。肿瘤科医生则对不同类型的印象表现出相似的接受度。
研究的科学价值与应用意义在于: 1. 验证了领域适应的重要性: 研究证明,针对特定机构或医生风格进行微调的AI模型,其输出比通用大语言模型零样本提示的结果更符合放射科医生的专业标准和偏好,这为AI在临床文本生成中的有效部署指明了技术路径。 2. 强调了多利益相关者视角的必要性: 研究揭示了评估AI医疗工具时,不能仅从开发者或单一用户(如放射科医生)角度出发,必须纳入所有终端用户(如肿瘤科医生)的反馈,因为他们的需求和评判标准可能不同。 3. 挑战了“黄金标准”概念: 低评估者间信度表明,对于“优秀”印象的定义存在合理差异。这提示未来的AI系统不应追求生成单一“最优”输出,而应致力于提供可适应、可编辑、能与用户特定偏好对齐的起草工具,以支持人机协作,而非完全自动化。 4. 为前瞻性工作流程研究奠定基础: 本研究为后续在真实临床工作流程中评估AI生成印象对报告效率、认知负荷、编辑行为及最终患者结局的影响提供了方法论基础和初步证据。
五、 研究亮点
六、 其他有价值内容
研究也坦诚地指出了若干局限性:单中心、肿瘤专科CT的设定可能限制结论的普适性;回顾性评估而非实时工作流程评估,可能无法完全反映真实临床压力下的使用情况;患者伤害评估基于专家判断而非真实临床结局;通用模型仅使用标准提示,未进行优化;评估者样本量较小等。这些局限性为未来研究指明了方向,例如需要进行多中心、多模态、前瞻性的工作流程整合研究,并长期追踪对临床决策和患者结局的影响。