大型语言模型在放射学报告可读性中的多维评估研究学术报告
一、 作者、机构与发表信息
本研究由吉林大学第三医院放射科的Yunhai Mao、Chunyan Wang、Yuxin Li、Wei Wang及Mengchao Zhang教授(通讯作者)共同完成。研究成果以论文《Multidimensional evaluation of large language models in radiology report readability》的形式发表于期刊《npj Digital Medicine》,于2026年发表,目前处于在线预发表(article in press)状态。
二、 研究背景与目的
本研究隶属于医学人工智能与临床放射学交叉领域。随着医疗服务模式向“以患者为中心”(patient-centered care)转变,超过50%的患者希望直接获取自己的放射学报告。然而,传统放射学报告专业术语复杂,仅约4.2%的报告满足普通成人的阅读水平要求,构成了医患沟通的障碍。研究表明,提升患者对报告的理解能力,有助于提高其健康素养、治疗依从性并缓解临床焦虑。
大型语言模型(Large Language Models, LLMs)凭借其强大的自然语言处理能力,为将专业放射报告转化为通俗易懂的患者版报告提供了潜在解决方案。尽管前期研究表明LLMs在此任务上具有可行性,但现有研究仍存在三个关键空白:1) 缺乏对患者人口学特征(如年龄与教育程度)交互影响的系统性考察;2) 缺少不同先进LLMs性能的横向比较以确定最优临床部署工具;3) 对于简化效果是否受解剖区域复杂性或临床紧急程度影响,实证证据不足。
为此,本研究旨在通过一个序贯两阶段设计(回顾性评估与临床环境验证),多维评估不同LLMs(ChatGPT-4.0, Grok-3, DeepSeek-R1)在简化放射学报告、提升患者理解方面的性能,并初步探索年龄与教育背景对普通人群理解LLMs生成内容的交互影响,同时评估该方法在真实临床环境中的生态效度。
三、 研究详细流程与方法
本研究采用序贯两阶段设计,严格遵守《赫尔辛基宣言》并通过伦理审查。
第一阶段:回顾性评估 1. 数据获取:从医院电子数据库中提取2025年1月的320份已去标识化的原始放射学报告,涵盖头、胸、腹、肌肉骨骼系统四个解剖区域各80份。报告纳入标准考虑了临床紧急程度、成像方式和检查类型。 2. LLMs处理与输出生成:使用三个LLMs(ChatGPT-4.0, Grok-3, DeepSeek-R1)通过标准化提示词(包括:转化为日常语言、生成个性化建议、撰写简要摘要)处理所有原始报告,生成患者版报告。所有模型使用官方网页接口、默认参数,并采用“零样本”(zero-shot)方式以避免上下文干扰。 3. 非医学参与者评估: * 参与者与分组:招募16名无医学背景的参与者,采用2×2因子设计(高/低教育水平 × 年轻/年长年龄)分为4组,每组4人,性别均衡。教育水平以是否拥有学士学位为界,年龄以50岁为界。 * 评估流程:每位参与者评估总计320份报告(80份原始报告及其对应的3个LLMs版本)。报告版本呈现顺序随机,且参与者不知晓报告对应的生成模型。参与者使用5点Likert量表(从“几乎不理解”到“几乎完全理解”)主观评估对报告内容的理解程度。 4. 医学专家(放射科医师)评估:由两名具有丰富经验的注册放射科医师对所有LLMs生成的患者版报告进行系统审查,记录以下指标: * 准确性评估:量化每个报告中信息的遗漏与不准确之处(以每报告平均事件数表示)。 * 建议相关性评估:记录LLMs为患者和医疗提供者生成诊断与治疗建议的频率,并分析这些建议与影像发现的一致性程度。 * 摘要质量评估:使用5点Likert量表对LLMs生成的报告摘要进行评分,标准涵盖诊断结论、病灶定位、特征及临床意义的准确性和完整性。 5. 模型稳健性分析:从320份报告中随机选取一份胸部CT报告,用三个LLMs分别生成10次输出。将原始报告分解为18个关键信息点(Key Information Points, KIPs),评估每次翻译对KIPs的保留准确度,以此检验模型输出的不一致性。随后,研究通过优化提示词策略(提供更具体、结构化的指令)来测试其对翻译准确性和稳定性的提升效果。 6. 分层分析:除总体分析外,还进行了按解剖区域(头、胸、腹、肌肉骨骼)和报告紧急程度的分层评估,比较LLMs在不同情境下的性能差异。
第二阶段:临床环境验证 1. 参与者与材料:基于第一阶段综合评估结果,选择表现最优的DeepSeek-R1模型作为载体。于2026年1月招募800名实际就诊于放射科的患者,排除有医学背景或严重认知障碍者。同样采用2×2因子设计(年龄×教育水平)分组,每组200人。 2. 评估流程:从第一阶段四个解剖区域各选取一份具有代表性的标准化原始报告及其DeepSeek-R1简化版。每位患者按顺序评估原始报告和对应的简化版报告。评估工具包括: * 主观理解自评:使用5点Likert量表。 * 客观理解测试:基于报告内容的知识测试题。 * 状态焦虑评估:使用状态-特质焦虑量表简版(State-Trait Anxiety Inventory-6,STAI-6)测量患者阅读报告后的焦虑水平。 3. 统计分析方法:使用Friedman检验、Wilcoxon符号秩检验、Mann-Whitney U检验进行组间比较,并采用Bonferroni校正控制多重比较误差。使用广义线性混合模型(GLMMs)调整解剖部位和疾病类别等混杂因素的影响。使用线性加权Kappa统计量评估评分者间信度。效应量分别用r(配对检验)和Cliff’s |δ|(独立组比较)表示。
四、 主要研究结果
第一阶段结果(回顾性评估): 1. LLMs提升可读性普遍有效:所有三种LLMs生成的患者版报告,其主观理解得分均显著高于原始报告(p < 0.05)。DeepSeek-R1表现最佳(平均分4.80±0.49),其次是Grok-3(4.69±0.56)和ChatGPT-4.0(4.55±0.68)。在调整了混杂因素后,LLMs生成报告仍是理解度改善的独立相关因素。 2. 人口学特征的交互影响:年龄与教育水平对报告理解存在显著交互作用(p < 0.05)。 * 在年长组(>50岁)中,教育水平高者比教育水平低者对LLMs生成报告的理解显著更好。 * 在教育水平相同的情况下,年长者对报告的理解显著优于年轻人。这表明存在一种“经验效应”——年长患者可能凭借更丰富的就医经历,能更好地解读简化后的医学语义。 * 值得注意的是,在此回顾性阶段,年轻组内部,高教育与低教育水平参与者的理解度未发现显著差异。 3. 解剖区域差异:对于头、胸、腹部的报告,LLMs简化效果良好。然而,对于肌肉骨骼(MSK)系统的报告,非医学参与者的理解度显著低于其他部位(p<0.05),提示MSK术语的复杂性可能给简化带来特殊挑战。 4. 紧急报告表现:LLMs在简化紧急放射学报告方面同样有效,能够显著提升非医学参与者在时间压力情境下的理解度(p < 0.05)。 5. 医学专家评估发现: * 准确性问题:所有LLMs的翻译都存在信息遗漏和不准确问题。例如,ChatGPT-4.0平均每份报告有0.072处遗漏和0.038处不准确。Grok-3在报告摘要质量上评分最高。 * 建议缺乏特异性:LLMs生成的健康建议多为普适性建议(如“及时就医”、“遵医嘱”、“保持健康生活习惯”),缺乏针对具体疾病的特异性指导。 6. 模型稳健性与提示词优化:初始测试显示,同一模型对相同输入会产生不一致的输出。通过优化和标准化提示词(如明确要求保留格式和具体内容),显著提升了ChatGPT-4.0和DeepSeek-R1的关键信息点保留率,减少了输出变异性。
第二阶段结果(临床环境验证): 1. 显著提升患者理解与缓解焦虑:与实际患者阅读原始报告相比,阅读DeepSeek-R1简化版报告后,患者的主观理解评分(从3.59±0.74提升至4.68±0.47)和客观理解测试得分(从1.64±0.84提升至2.78±0.42)均得到显著改善(p<0.05),且两者呈强正相关。更重要的是,患者的状态焦虑评分(STAI-6)从16.74±2.89显著下降至10.44±2.23(p < 0.05),表明LLMs驱动的沟通策略不仅能传递知识,还能提供心理慰藉。 2. 人口学交互作用的深化发现:与第一阶段回顾性研究不同,在真实的临床环境中,年轻患者组的理解水平也显著受到教育程度的影响(p < 0.05)。这可能是因为临床环境中的诊断焦虑加剧了教育差距对认知负荷的影响。
五、 研究结论与意义
本研究提供了初步证据,表明LLMs在提升放射学报告可读性、改善患者理解、以及缓解医疗焦虑方面具有潜在临床价值。研究证实了LLMs作为放射科医师辅助沟通工具的可行性。
然而,LLMs的临床应用仍面临挑战:1) 输出不稳定:存在信息遗漏、过度简化或内容不一致的风险;2) 人口学差异:患者的年龄和教育背景对简化报告的理解有显著的交互影响,需要个性化的沟通策略;3) 建议局限性:生成的健康建议普遍缺乏疾病特异性,不能作为临床诊疗的直接依据;4) 解剖区域差异:对肌肉骨骼等复杂术语的报告简化效果相对较差。
因此,LLMs应被定位为放射科医师的临床决策支持工具,而非独立解决方案。在广泛临床应用前,需要进行更多大规模、多中心研究来验证这些发现,并建立涵盖法律责任、隐私保护及解决“数字鸿沟”的多学科治理框架,以确保LLMs驱动的医患沟通策略安全、公平地实施。
六、 研究亮点
七、 其他有价值内容
研究明确指出了自身的局限性:1) 单中心研究,结论外推需谨慎;2) 临床验证阶段使用标准化案例而非实时生成的个性化报告,可能与真实情感反应存在差距;3) 评估顺序固定(先原版后简化版),可能高估了简化带来的提升效果;4) 稳健性分析仅基于一份胸部CT报告,结论普适性受限;5) 基于商业LLMs的公共接口,存在技术透明度不足和模型漂移问题;6) 研究在中文语境下进行,未充分探讨跨文化、跨语言的认知差异。这些局限为未来研究指明了方向,如采用随机交叉设计、进行多中心及跨语言比较试验等。