这篇文档属于类型a,是一篇关于利用大型语言和视觉模型从结肠镜图像-文本记录中提取知识的原创性研究。以下是详细的学术报告:
一、研究团队与发表信息
本研究由Shuo Wang(复旦大学基础医学院数字医学研究中心、上海MICCAI重点实验室、帝国理工学院数据科学研究所)、Yan Zhu(上海内镜协同创新中心、复旦大学附属中山医院内镜中心)等来自9个机构的学者共同完成,通讯作者为Shuo Wang、Quan Lin Li和Pinghong Zhou。论文《Leveraging large language and vision models for knowledge extraction from large-scale image–text colonoscopy records》于2025年8月发表于Nature Biomedical Engineering(DOI: 10.1038/s41551-025-01500-x)。
二、学术背景
研究领域与动机
结直肠癌是全球癌症死亡的第二大原因,结肠镜检查是筛查癌前病变(如息肉)的金标准。然而,现有AI辅助系统依赖专家标注的息肉图像数据集,面临两大瓶颈:
1. 数据规模与多样性不足:标注成本高,限制模型泛化能力;
2. 临床记录利用率低:医院每日产生大量未标注的结肠镜图像-文本记录(如100万张图像/13,372份报告)。
科学问题与目标
研究团队提出EndoKED(Endoscopic Knowledge Extraction and Distillation)框架,旨在通过大型语言模型(LLM)和视觉模型(LVM)的协同作用,自动从原始临床记录中提取多尺度监督信号(报告级→图像级→像素级),解决标注依赖问题,并提升息肉检测、分割及光学活检(optical biopsy)模型的性能。
三、研究流程与方法
1. 数据收集与预处理
- 数据集:从4家医疗中心收集14,177份结肠镜记录(约100万张图像),包括:
- 训练集:13,372份回顾性记录(中山医院、厦门医院、郑州中心医院);
- 测试集:内部测试(400份)、外部测试(400份,988医院)、前瞻性测试(405份)。
- 标注标准:专家手动标注报告级息肉存在性及图像级息肉位置。
2. 知识提取与蒸馏框架(EndoKED)
(1)报告级标签提取(LLM)
- 方法:使用ChatGPT、Claude、Ernie等LLM解析结肠镜报告文本,通过问答生成二分类标签(“是否存在息肉”)。
- 验证:在300份报告中,LLM的准确率达100%。
(2)图像级标签蒸馏(MIL)
- 多示例学习(MIL):设计教师-学生网络架构:
- 教师网络:基于ResNet18和注意力池化,预测报告级标签;
- 学生网络(EndoKED-MIL):共享编码器,通过注意力分数生成图像级伪标签。
- 性能:在内部/外部/前瞻性测试集上,图像级平均精度(AP)分别为0.901、0.875、0.899。
(3)像素级分割(SAM引导的弱监督学习)
- 类激活图(CAM)定位:采用Vision Transformer生成息肉区域热图,通过对比损失优化定位精度。
- Segment Anything Model(SAM)标注:将CAM生成的边界框作为提示输入SAM,迭代生成像素级掩膜,训练分割模型EndoKED-Seg。
- 性能:在6个公共数据集(如Kvasir-Seg、ETIS)上平均Dice系数(DSC)达0.827,媲美全监督模型。
3. 下游任务验证
(1)息肉检测与分割
四、主要结果
- LLM理解临床文本的可靠性:报告级标签提取准确率100%,为后续蒸馏提供高信噪比监督信号。
- 跨尺度知识蒸馏的有效性:
- MIL将报告级标签转化为图像级标签的AP超0.87;
- SAM迭代优化使像素级分割DSC接近专家水平(如CVC-ClinicDB达0.815)。
- 预训练提升模型泛化性:
- 在差异较大的数据集(如PolypGen-Small)上,轻量级模型PIDNet性能提升15.4%;
- 光学活检模型仅需10%标注数据即可达到Imagenet预训练全数据集的性能。
五、结论与价值
科学价值
- 方法论创新:首次将LLM与LVM协同用于内镜知识提取,实现从原始记录到像素标注的全自动化流程。
- 数据效率革命:减少对专家标注的依赖,为医学AI的大规模训练提供新范式。
临床应用价值
- 实时辅助诊断:EndoKED-Seg可集成至结肠镜系统,实时标注息肉边界;
- 精准光学活检:模型区分良恶性息肉的AUC超0.88,支持临床决策。
六、研究亮点
- 多模态模型协同:LLM(文本理解)与LVM(图像分割)的跨模态合作突破单模态局限。
- 全自动标注流程:EndoKED无需人工干预即可生成像素级标注,显著降低成本。
- 跨中心泛化能力:在4家医院数据及6个公共数据集上验证了鲁棒性。
七、其他价值
(注:文中所有专业术语首次出现时均标注英文原文,如“光学活检(optical biopsy)”“类激活图(CAM)”等。)