利用纵向CT图像的人工智能聊天机器人对肺结节进行评估

分享自：
利用纵向CT图像的人工智能聊天机器人对肺结节进行评估

生物医学工程
影像医学与核医学
期刊:Cell Reports MedicineDOI:10.1016/j.xcrm.2025.101988
【点击此处】阅读全文、收藏及针对性提问
本研究由Yuqiang Mao、Nan Xu、Yanan Wu、Lu Wang、Hongtao Wang、Qianqian He、Tianqi Zhao、Shuangchun Ma、Meihong Zhou、Hongjie Jin、Dongmei Pei、Lina Zhang和Jiangdian Song共同完成。作者单位包括中国医科大学附属盛京医院胸外科、中国医科大学健康管理学院、中国医科大学附属第四医院放射科等。该研究于2025年3月18日发表在学术期刊《Cell Reports Medicine》上，文章标题为“Assessments of lung nodules by an artificial intelligence chatbot using longitudinal CT images”。
学术背景 本研究属于医学影像人工智能交叉领域，具体聚焦于利用大型语言模型（LLM）分析肺部结节的纵向计算机断层扫描（CT）图像。肺癌是全球范围内主要的癌症死亡原因，早期发现和准确评估肺结节对于改善患者预后至关重要。目前，临床实践中对肺结节的监测主要依赖放射科医生手动比对多次随访的CT图像，以评估结节大小、形态和纹理特征的动态变化，从而判断其恶性风险。这一过程不仅耗时，而且存在观察者间差异。尽管基于深度学习的模型在肺结节检测和分类方面已展现出高性能，但其决策过程通常缺乏可解释性，这限制了其在临床实践中的广泛应用和医生的信任度。
以GPT-4为代表的大型语言模型在文本理解和生成方面取得了突破，而最新的GPT-4o模型进一步整合了视觉处理能力，能够同时处理图像、音频和视频等多模态信息。这为开发能够模拟放射科医生视觉检查流程、并提供可解释性诊断证据的人工智能工具提供了新的可能性。然而，在GPT-4o发布之初，其在处理纵向医学影像序列（可视为视频）以动态评估疾病进展方面的价值尚不明确。
因此，本研究旨在探索和验证GPT-4o在分析患者纵向CT随访图像方面的能力。具体研究目标包括：1）评估GPT-4o利用系列CT图像预测肺结节恶性概率的准确性；2）评估GPT-4o自动测量结节大小并与放射科医生手动测量结果的一致性；3）评估GPT-4o识别和描述结节特征（如形态、边缘、内部结构等）变化的能力；4）探究GPT-4o提供的可解释性描述是否能够增强放射科医生对人工智能辅助诊断的接受度和信赖感。
详细工作流程 本研究是一项多中心回顾性研究，共纳入了647名患者的纵向CT图像数据。数据来源包括两个本地医疗中心（C1和C2数据集）、一个本地肺癌筛查队列（LLCS数据集）以及一个公开数据集——美国国家肺癌筛查试验（NLST）数据集。患者平均接受了2.8次CT检查，平均随访间隔为286.2天。
研究流程主要包括以下几个步骤： 1. 数据准备与预处理：从医院影像归档和通信系统（PACS）中获取每位患者的系列薄层CT图像。为了模拟放射科医生浏览连续CT层面的过程，研究者将每个CT扫描的所有切片按时间顺序合成为一个视频文件，帧率为每秒20帧。所有视频均经过匿名化处理以保护患者隐私。图像预处理采用了固定的窗宽（2000）和窗位（-500）以优化显示效果。 2. 构建GPT-4o的记忆与提示：为了引导GPT-4o执行特定任务，研究者首先随机选取了20名患者的数据来构建“记忆库”并生成文本提示（Prompt）。提示词中包含了患者的人口统计学信息（年龄、性别、吸烟史）、CT图像时间戳、图像分辨率和层厚、恶性概率分数的定义，以及首次CT图像中肺结节的中心坐标和大小，以帮助模型在后续图像中跟踪结节。此外，还提供了基于Fleischner学会指南的肺结节恶性风险相关特征的文字定义。 3. 使用GPT-4o评估CT视频：将每位患者的CT视频连同定制化的提示词输入GPT-4o，要求其执行三项核心任务： * 评估恶性概率：对每次CT扫描，输出一个1-100分的恶性概率评分。 * 测量结节大小：利用提供的初始坐标定位结节，在显示结节最大的帧上勾勒结节边界，并报告结节的最大长径和垂直短径（取平均值作为最终测量值）。 * 描述结节特征：全面描述结节的形态学特征及其随时间的变化，包括形状、边缘、内部结构和密度、是否存在小支气管受累、周围小血管变化以及周围结构改变（如胸膜牵拉）等。对于NLST数据集，则根据其标注规范描述边缘（毛刺状、光滑、模糊）和主要衰减类型（软组织、磨玻璃、混合）。 4. 结果评估与对比： * 诊断准确性评估：将GPT-4o基于CT图像序列（从仅使用首次图像到整合多次随访图像）给出的恶性概率预测，与金标准——病理学结果（C1、C2、NLST数据集）或两位放射科医生基于Lung-RADS标准评估的平均概率（LLCS数据集）进行对比。使用受试者工作特征曲线下面积（AUC）和组内相关系数（ICC）来衡量性能。 * 特征描述评估：六名经验不同的放射科医生（5-25年经验）独立审阅C1和C2数据集的CT图像，记录他们对结节特征变化的观察。然后，他们使用5分李克特量表（1分完全错误，5分完全正确）来评分GPT-4o生成的描述与自身观察的一致性。 * 大小测量评估：将GPT-4o自动测量的结节大小与放射科医生的手动测量结果进行对比，计算ICC和皮尔逊相关系数，并绘制Bland-Altman图展示一致性。同时，评估GPT-4o在判断结节增大或缩小趋势方面的准确性。 * 可重复性测试：对50个病例进行两轮测试，评估GPT-4o在结节特征描述和恶性概率定量评估上的一致性。 * 对比实验：除了与放射科医生对比，研究还将GPT-4o的性能与一个开源多模态视觉语言模型Molmo-7b在NLST数据集上的表现进行了比较。此外，还进行了一项特别的“临时实验”，让六名放射科医生对三种模型（GPT-4o、一个本地深度学习模型、一个已发表的在线深度学习模型）在“使用意愿”、“信息依赖度”、“潜在危害感知”、“内容缺失度”和“不恰当内容”五个维度上进行评分，以评估临床接受度。 5. 数据分析：使用R软件进行统计分析。采用DeLong检验比较不同条件下AUC的差异。使用ICC评估测量和评分的一致性。统计显著性设定为p < 0.05（双侧）。
主要结果 1. 恶性概率评估：GPT-4o在预测肺结节恶性概率方面表现出色，且性能随着整合更多随访CT图像而显著提升。 * 在C1数据集上，仅使用首次CT图像时AUC为0.75，加入第二次随访图像后AUC提升至0.86，加入第三次图像后达到0.87。 * 在C2数据集上，相应AUC从0.69提升至0.88和0.93。 * 在外部验证集NLST上，AUC从首次图像的0.72提升至第二次图像的0.88和最终图像的0.92。 * 在LLCS筛查数据集上，GPT-4o的恶性概率估计与放射科医生评估的ICC，从首次图像的0.66逐步提升至第四次图像的0.90。 * 这些结果清晰地表明，GPT-4o能够有效利用纵向影像中的动态信息，显著提高恶性风险判别的准确性。研究还发现，GPT-4o在恶性概率评估上的表现显著优于仅使用结节大小信息（p < 0.05），突显了其综合分析形态特征的能力。
结节特征描述评估：六名放射科医生对GPT-4o结节特征描述的总体评价中位数为4.17分（满分5分），平均组内相关系数为0.53，表明GPT-4o的描述具有较高的可信度和一致性。具体案例显示，GPT-4o能够准确捕捉到结节从相对圆形变为轻微不规则、内部密度增加、以及小支气管受累逐渐显现等细微的恶性进展征象，其描述与放射科医生的长期随访观察和最终病理结果高度吻合。在NLST数据集上，GPT-4o对预定义放射学特征描述的准确率达到0.84，高于对比模型Molmo-7b的0.67。
结节大小测量评估：GPT-4o自动测量的结节大小与放射科医生手动测量结果高度一致。
在C1、C2、LLCS和NLST四个数据集上，ICC分别达到0.86、0.95、0.88和0.93，皮尔逊相关系数分别为0.86、0.96、0.88和0.93（均p < 0.001）。
在检测结节增大或缩小的趋势方面，GPT-4o也表现出高准确性。例如，对于放射科医生判定的结节增大病例，GPT-4o在四个数据集上的识别准确率分别为84.8%、92.6%、88.2%和86.4%；对于结节缩小病例，准确率分别为85.4%、91.7%、81.8%和85.7%。
可重复性与临床接受度：
可重复性测试显示，GPT-4o在结节特征描述上的平均可重复率为84.1%，在恶性概率定量评估上，随着CT图像数量增加，可重复率从82.0%（首次图像）提升至96.0%（第三次图像），边界勾勒也显示出良好的稳定性。
“临时实验”的结果非常关键：与仅提供概率预测的深度学习模型相比，能够同时提供预测和证据描述的GPT-4o，获得了放射科医生更高的“使用意愿”（86.9% vs. 54.2%和72.4%）和“信息依赖度”（70.2% vs. 45.7%和62.9%）。同时，医生认为GPT-4o的“潜在危害感知”（19.2% vs. 53.9%和54.6%）和“内容缺失度”（35.6% vs. 79.3%和64.2%）更低。尽管GPT-4o因生成描述性文本而被认为可能产生更多“不恰当内容”（20.7% vs. 10.0%），但其整体接受度优势明显。
结论与意义 本研究证实，GPT-4o能够有效模拟放射科医生的能力，利用纵向CT随访图像来监测肺结节的特征和大小变化，并估计其恶性概率。与病理结果和放射科医生手动评估相比，GPT-4o达到了令人信服的准确性，并能提供相应的高质量、可解释的放射学证据。
其科学价值在于，首次系统性地验证了最新一代视觉语言模型（GPT-4o）在处理纵向医学影像序列（视频）以进行动态疾病评估方面的可行性和有效性。它突破了传统深度学习模型“黑箱”的局限，提供了一种“即插即用”、无需复杂网络工程设计的解决方案。
其应用价值显著：首先，GPT-4o可以自动化、标准化地完成耗时且易受主观影响的结节随访评估工作，有望提升放射科工作效率。其次，其提供的可解释性描述（如指出特定特征的变化）能够辅助临床决策，帮助医生更早地识别高风险结节，从而可能实现肺癌的早期发现和及时干预。最后，研究结果表明，提供推理过程能极大增强医生对AI工具的信任和接受度，这对推动AI在临床实践中的落地至关重要。
研究亮点 1. 方法创新：创新性地将患者的系列CT扫描转换为视频，并利用GPT-4o的多模态能力进行分析，模拟了放射科医生浏览动态图像的工作流。这是一种利用通用大模型解决特定医学影像分析任务的新范式。 2. 任务全面：研究不仅评估了结节的静态恶性风险，更着重于其对结节大小和纹理特征动态变化的监测能力，这是临床随访的核心。 3. 强调可解释性：研究的核心亮点之一在于证明了GPT-4o能够生成符合放射学语言习惯的、可解释的描述，这直接回应了当前AI医疗应用中的关键瓶颈——信任问题。实验数据明确显示，可解释性显著提高了放射科医生的使用意愿和依赖度。 4. 严谨的验证：研究采用了多中心、内外部队列验证（包括公开数据集），从诊断准确性、测量一致性、特征描述可信度、模型可重复性以及临床医生接受度等多个维度进行了全面评估，证据链完整。 5. 前瞻性对比：不仅与金标准和医生对比，还与前沿的开源多模态模型（Molmo-7b）以及其他深度学习模型进行了性能和使用体验的对比，定位了GPT-4o在当前技术中的位置。
其他有价值的内容 研究也坦诚地讨论了其局限性：例如，每次CT扫描作为独立视频输入可能影响效率并增加技术错误风险；未设计针对单次CT图像上多发性结节的实验；平均随访次数有限（2.8次）；未来需要纳入更长期的随访数据以及临床和生化检测信息进行多模态评估；并且建议未来与更多深度学习模型进行更广泛的比较。这些为后续研究指明了方向。
这项研究为利用大型视觉语言模型辅助肺结节纵向管理提供了有力的概念验证和详实的性能数据，展示了人工智能在提升医学影像分析效率和透明度方面的巨大潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问