分享自:

利用大型语言和视觉模型从大规模图像-文本结肠镜检查记录中提取知识

期刊:nature biomedical engineeringDOI:10.1038/s41551-025-01500-x

这篇文档属于类型a,是一篇关于利用大型语言和视觉模型从结肠镜图像-文本记录中提取知识的原创性研究。以下是详细的学术报告:


一、研究团队与发表信息

本研究由Shuo Wang(复旦大学基础医学院数字医学研究中心、上海MICCAI重点实验室、帝国理工学院数据科学研究所)、Yan Zhu(上海内镜协同创新中心、复旦大学附属中山医院内镜中心)等来自9个机构的学者共同完成,通讯作者为Shuo Wang、Quan Lin Li和Pinghong Zhou。论文《Leveraging large language and vision models for knowledge extraction from large-scale image–text colonoscopy records》于2025年8月发表于Nature Biomedical Engineering(DOI: 10.1038/s41551-025-01500-x)。


二、学术背景

研究领域与动机

结直肠癌是全球癌症死亡的第二大原因,结肠镜检查是筛查癌前病变(如息肉)的金标准。然而,现有AI辅助系统依赖专家标注的息肉图像数据集,面临两大瓶颈:
1. 数据规模与多样性不足:标注成本高,限制模型泛化能力;
2. 临床记录利用率低:医院每日产生大量未标注的结肠镜图像-文本记录(如100万张图像/13,372份报告)。

科学问题与目标

研究团队提出EndoKED(Endoscopic Knowledge Extraction and Distillation)框架,旨在通过大型语言模型(LLM)视觉模型(LVM)的协同作用,自动从原始临床记录中提取多尺度监督信号(报告级→图像级→像素级),解决标注依赖问题,并提升息肉检测、分割及光学活检(optical biopsy)模型的性能。


三、研究流程与方法

1. 数据收集与预处理

  • 数据集:从4家医疗中心收集14,177份结肠镜记录(约100万张图像),包括:
    • 训练集:13,372份回顾性记录(中山医院、厦门医院、郑州中心医院);
    • 测试集:内部测试(400份)、外部测试(400份,988医院)、前瞻性测试(405份)。
  • 标注标准:专家手动标注报告级息肉存在性及图像级息肉位置。

2. 知识提取与蒸馏框架(EndoKED)

(1)报告级标签提取(LLM)
  • 方法:使用ChatGPT、Claude、Ernie等LLM解析结肠镜报告文本,通过问答生成二分类标签(“是否存在息肉”)。
  • 验证:在300份报告中,LLM的准确率达100%。
(2)图像级标签蒸馏(MIL)
  • 多示例学习(MIL):设计教师-学生网络架构:
    • 教师网络:基于ResNet18和注意力池化,预测报告级标签;
    • 学生网络(EndoKED-MIL):共享编码器,通过注意力分数生成图像级伪标签。
  • 性能:在内部/外部/前瞻性测试集上,图像级平均精度(AP)分别为0.901、0.875、0.899。
(3)像素级分割(SAM引导的弱监督学习)
  • 类激活图(CAM)定位:采用Vision Transformer生成息肉区域热图,通过对比损失优化定位精度。
  • Segment Anything Model(SAM)标注:将CAM生成的边界框作为提示输入SAM,迭代生成像素级掩膜,训练分割模型EndoKED-Seg。
  • 性能:在6个公共数据集(如Kvasir-Seg、ETIS)上平均Dice系数(DSC)达0.827,媲美全监督模型。

3. 下游任务验证

(1)息肉检测与分割
  • 预训练提升:EndoKED预训练使U-Net等模型在跨中心数据上的DSC提升26.5%(如PolypGen数据集),假阳性率降低30.93%。

    (2)光学活检(恶性息肉分类)
  • 迁移学习:基于EndoKED-MIL的视觉骨干网络,仅需716张病理标注图像微调,即在内部/外部/前瞻性测试集上AUC达0.889–0.911,媲美资深内镜医师。


四、主要结果

  1. LLM理解临床文本的可靠性:报告级标签提取准确率100%,为后续蒸馏提供高信噪比监督信号。
  2. 跨尺度知识蒸馏的有效性
    • MIL将报告级标签转化为图像级标签的AP超0.87;
    • SAM迭代优化使像素级分割DSC接近专家水平(如CVC-ClinicDB达0.815)。
  3. 预训练提升模型泛化性
    • 在差异较大的数据集(如PolypGen-Small)上,轻量级模型PIDNet性能提升15.4%;
    • 光学活检模型仅需10%标注数据即可达到Imagenet预训练全数据集的性能。

五、结论与价值

科学价值

  1. 方法论创新:首次将LLM与LVM协同用于内镜知识提取,实现从原始记录到像素标注的全自动化流程。
  2. 数据效率革命:减少对专家标注的依赖,为医学AI的大规模训练提供新范式。

临床应用价值

  1. 实时辅助诊断:EndoKED-Seg可集成至结肠镜系统,实时标注息肉边界;
  2. 精准光学活检:模型区分良恶性息肉的AUC超0.88,支持临床决策。

六、研究亮点

  1. 多模态模型协同:LLM(文本理解)与LVM(图像分割)的跨模态合作突破单模态局限。
  2. 全自动标注流程:EndoKED无需人工干预即可生成像素级标注,显著降低成本。
  3. 跨中心泛化能力:在4家医院数据及6个公共数据集上验证了鲁棒性。

七、其他价值

(注:文中所有专业术语首次出现时均标注英文原文,如“光学活检(optical biopsy)”“类激活图(CAM)”等。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com