基于多模态大语言模型的自动化内窥镜报告系统:Report-angel的研发与多中心前瞻性验证
一、 作者、机构、发表期刊与时间
本项研究由来自中国武汉大学人民医院(Renmin Hospital of Wuhan University)消化内科等机构的蒋瑞清、陈博儒、董泽华等学者共同完成,通讯作者为武汉大学人民医院的于红刚教授与周伟教授。该研究成果已于2026年发表在数字医学领域的权威期刊 npj Digital Medicine 上,文章标题为“Domain specific multimodal large language model for automated endoscopy reporting with multicenter prospective validation”。
二、 研究背景与目的
本研究属于人工智能(Artificial Intelligence, AI)在医学影像与临床辅助决策交叉领域的前沿应用,具体聚焦于消化内镜报告的自动化生成。
科学背景: 精确的上消化道内窥镜(Upper Gastrointestinal Endoscopy, UGI)报告对于患者的诊断和治疗至关重要。然而,撰写内镜报告是一项高度专业化且耗时的工作,尤其是对于经验不足的内镜医师,报告中的错误和遗漏并不少见。深度学习和大型语言模型(Large Language Models, LLMs)在医学影像分析(如放射学报告标准化)方面取得了革命性进展。然而,与二维灰度放射影像不同,消化内镜产生的是动态、三维、全彩色的图像,病灶特征繁多且微妙,使得准确、全面的解读对临床医生和算法都更具挑战性。此前虽有研究尝试开发基于深度学习的上消化道内镜报告系统,但这些系统往往无法自动描述病灶特征(报告撰写的必要组成部分),且未验证其与临床工作流程的整合,限制了其应用价值。它们通常依赖于数十个独立的AI模型,效率有限。
研究目的: 为解决上述问题,本研究旨在开发并验证一个名为“Report-angel”的自动化上消化道内镜报告系统。该系统基于一个新颖的混合架构,集成了多模态大语言模型(Multimodal Large Language Model, MLLM)与传统深度学习模型,以实现高效的图像-文本融合。其主要目标是处理实时内窥镜视频,并在检查结束后立即自动生成详细的草稿报告。这份草稿报告旨在作为可编辑的基础,供内镜医师快速审阅、必要时修改并签字确认,从而减少文档工作所需的时间和精力。研究还进行了多中心验证和前瞻性研究,以评估AI生成的报告是否符合临床可用草稿报告的标准。
三、 详细研究流程与方法
本研究是一项观察性研究,综合利用了回顾性和前瞻性数据,工作流程系统且严谨,主要包括以下几个核心部分:
1. 数据集构建与标注: 研究使用了六个数据集进行训练和测试。 * 训练数据集 (RMI-train): 回顾性收集了20,617张上消化道内镜图像-文本对。图像包含单一可见病灶(包括局灶性和弥漫性胃部病变以及食管病变)和正常黏膜。专家内镜医师(超过15年经验)遵循内镜术语指南,为每张图像撰写详细的病灶描述文本(包括形态、颜色、表面光滑度、出血状态、边界清晰度等特征)和诊断。低质量图像被排除。 * 测试与验证数据集: 包括多个独立的数据集,以确保评估的全面性和泛化能力。 * RMI-test (回顾性图像测试集): 1,596张图像-文本对,用于测试模型在静态图像上的基础性能。 * PMV (前瞻性多中心视频数据集): 来自一项多中心临床试验的1,532例完整内镜视频,提取出1,656张包含可报告病灶的图像帧。 * PSV (前瞻性单中心视频数据集): 300例前瞻性收集的内镜视频(主要用于前瞻性验证),提取出928张图像。 * PEV (前瞻性外部验证视频数据集): 来自另外两家医院的300例前瞻性内镜视频,用于外部验证和与内镜医师表现的比较。 * PMV-se (主观评价数据集): 从PMV中随机选取的300个图像-文本对,用于主观评分比较。 所有标注和“金标准”报告的撰写均由资深专家完成,存在分歧时通过讨论解决并由另一名专家审核。
2. Report-angel系统构建: 系统整合了6个深度学习模型,形成一个自动化报告生成流水线。 * 预处理模型 (模型1-5): 这些是基于传统卷积神经网络(CNN)开发的模型,用于处理原始视频流。功能包括:实时过滤合格的体内白光图像;检测并捕获可疑病灶图像;检测并捕获标准解剖标志物图像;检测操作器械并排除操作图像;标注图像质量。这些模型基于作者团队先前研究中开发和测试的架构(如VGG-16, ResNet-50, YOLO v3)。 * 核心MLLM模型 (模型6): 这是系统的创新核心。研究团队对现有的MLLM进行了领域特定的微调。 * 基础模型选择: 通过预实验比较,选择了Qwen-7B作为基础语言模型,视觉编码器为SigLIP-SO400M。 * 微调方法: 采用LoRA(Low-Rank Adaptation)方法,在冻结预训练模型大部分权重的基础上,向Transformer架构的注意力层注入可训练的低秩分解矩阵。这种方法能以较低的计算成本高效地让大模型适配特定领域的任务。 * 训练细节: 使用RMI-train数据集中的图像-文本对进行训练,采用交叉熵损失和AdamW优化器。训练过程旨在让模型学会根据输入的病灶图像,生成符合内镜专家风格的、结构化的特征描述和诊断分类。 * 输出约束与提示工程: 为防止“幻觉”(生成不基于图像的内容),系统采用了严格的输出模式约束和固定的提示词(Prompt)。提示词要求模型像专业内镜专家一样,专注于图像中指定边界框内的病灶,提供详细描述并给出最可能的诊断分类。描述的特征(如形态、颜色、边界等)和诊断类别(如高级别病变、糜烂、息肉等)都被限定在预定义的词汇表中。
3. 系统验证与评估流程: 研究设计了多层次、多角度的验证方案。 * 病灶层面诊断准确性: 在RMI-test、PMV、PSV数据集上,评估Report-angel系统对19种不同上消化道病变类型的识别准确率,并与专家标注的金标准进行比较。 * 病灶特征描述准确性: 针对局灶性胃部病变,评估系统对五个关键特征(形态、颜色、表面、边界、出血)描述的准确性。 * 前瞻性临床可用性评估(主要终点): 在PSV数据集上进行。系统处理300例前瞻性视频并生成草稿报告。由4位独立的资深内镜专家(均超过15年经验)在盲态下审阅这些AI报告。主要终点是“临床可接受草稿报告率”,定义为获得至少3/4专家批准的报告比例。评估标准基于报告是否在关键诊断要素上无需临床实质性修改。 * 病例层面报告完整性与准确性: 同样在PSV数据集上,以专家撰写的完整报告为金标准,评估AI报告在病例层面是否完整报告了所有病灶类型(完整性),以及报告中的病灶类型、数量和特征是否完全一致(准确性)。 * 主观评分比较: 在PMV-se数据集上,邀请3名初级内镜医师和3名高级内镜医师基于相同的病灶图像独立撰写报告。然后由一位顶级专家对所有来源(AI、初级医师、高级医师)的报告进行盲态评分,评估句子连贯性、特征完整性和特征准确性。 * 与内镜医师的诊断性能比较: 在外部验证集PEV上,比较Report-angel系统与初级、高级内镜医师在病灶诊断准确性上的差异。 * 系统稳定性测试: 在RMI-test数据集上重复运行模型推理50次,检查输出诊断结果的一致性,以评估模型的稳定性和“幻觉”风险。 * 错误分析: 对PSV和PEV数据集中被判定为“非临床可接受”的报告进行详细的错误分类和严重程度分级(高风险、中风险、低风险),以了解系统的安全边界和需要改进的方向。 * 处理速度评估: 记录系统处理每张病灶图像并生成描述和诊断的平均时间,以评估其整合到实时工作流程的可行性。
四、 主要研究结果
1. 前瞻性临床可接受草稿报告率(主要终点): * 在单中心前瞻性视频数据集(PSV)中,使用≥3/4专家批准的阈值,Report-angel生成的报告临床可接受率达到79.3%(95% CI: 74.4-83.5%)。采用更严格(4/4一致批准)或更宽松(≥2/4批准)的阈值时,结果相似(分别为78.3%和88.3%)。专家间评估一致性为中等。 * 在外部队列(PEV)中,临床可接受率达到了83.3%(95% CI: 78.7-87.3%),证明了系统的良好泛化能力。
2. 病例层面报告性能: * 在PSV数据集中,以专家报告为金标准,Report-angel的报告完整性为88.51%(95% CI: 84.64-92.38%),报告准确性为78.93%(95% CI: 73.98-83.88%)。 * 系统处理速度极快,对单个病灶图像的平均处理时间为1.5秒,后续整合成最终文字报告仅需0.1秒,可在检查结束后数分钟内生成完整草稿。
3. 病灶层面诊断准确性: * 在回顾性图像测试集(RMI-test)、前瞻性多中心视频集(PMV)和前瞻性单中心视频集(PSV)上,系统的总体病灶报告准确率分别为91.92%、89.07%和83.94%。性能随数据复杂度和前瞻性而略有下降,但仍保持较高水平。 * 对于高级别病变(如胃肿瘤、溃疡),系统在所有数据集上都表现出色,准确率超过95%(在PSV中达98.48%)。在RMI-test的80例经病理证实的胃肿瘤中,系统正确识别了78例(准确率97.50%)。 * 对于某些特征细微或数据量较少的病变(如萎缩伴肠化生、胆汁反流),准确性相对较低,反映了模型在这些类别上的学习挑战。
4. 病灶特征描述准确性: * 系统对局灶性病灶五个特征的描述总体准确率在三个测试集上分别达到91.18%、87.62%和93.27%。 * 其中,“出血”特征的描述最为准确(在PSV上达99.29%),而“边界清晰度”和“形态”的描述准确性在不同数据集间有波动。
5. 主观评价比较结果: * 在句子连贯性上,AI报告与初级、高级内镜医师的报告无显著差异(均分4.00)。 * 在特征完整性上,AI报告得分(均分3.59)显著高于初级医师(3.31),但略低于高级医师(3.67)。 * 在特征准确性上,AI报告得分(3.84)与高级医师相当(3.84),并显著高于初级医师(3.70)。 * 总体评分显示,AI报告的质量与高级医师相当,并优于初级医师。
6. 与内镜医师的诊断性能比较: * 在外部验证集PEV上,Report-angel的总体病灶诊断准确率为85.10%,显著高于初级内镜医师的80.65%,但低于高级内镜医师的94.18%。 * 对于高级别病变,所有评估者(AI、初级、高级医师)都接近完美识别。
7. 错误分析与稳定性: * 错误分析显示,高风险错误(如将溃疡误判为糜烂、误诊早期胃癌)极少见,但强调了最终专家审核的必要性。更常见的是中、低风险错误,如病灶计数错误、解剖定位不精确、将黏膜下病变与良性息肉混淆或将糜烂过度诊断为高级别病变等,这些主要影响报告的精确度而非诊断安全。 * 稳定性测试表明,模型在多次重复推理中输出结果一致,未观察到系统性“幻觉”。
五、 研究结论与价值
本研究成功开发并前瞻性验证了首个基于多模态大语言模型的自动化上消化道内镜报告生成系统——Report-angel。结论表明,该系统能够生成接近专家水平的、语言连贯且结构完整的草稿报告,在多个独立队列中显示出稳健的泛化性能和较高的临床可接受率。
科学价值: 本研究首次在消化内镜领域证明了MLLM用于自动化病灶报告生成的可行性,为MLLM在胃肠病学中更广泛的应用奠定了基础。它展示了如何通过领域特定的微调(LoRA)、严格的输出约束和精心设计的提示工程,将通用大模型成功应用于垂直的、对安全性要求极高的医疗任务。
应用价值: Report-angel系统有潜力有效标准化内镜报告书写,并显著减轻内镜医师的工作负担。通过提供一个可靠的基础草稿,它可以使内镜医师的工作流程从“从零开始撰写”转变为“审阅与修正”,这对于时间紧张的临床环境,尤其是对经验较少的医师具有重要价值。它为未来AI驱动内镜诊断和报告进入临床实践铺平了道路。
六、 研究亮点
七、 其他有价值内容
研究还探讨了局限性,例如训练数据规模、数据分布不平衡对模型性能的影响,以及临床可接受性评估中专家主观判断的影响。这些为未来研究指明了方向,如需要更大规模、更高质量且平衡的数据集,以及开发更客观的评估指标。此外,研究公开了模型代码和数据访问途径,促进了该领域的可重复性和进一步研究。