本文档报告了东南大学等机构的研究团队提出的一项原创研究,发表在国际顶级医学影像会议MICCAI 2024的会议论文集中。研究旨在解决当前眼底图像分析模型存在的泛化能力弱、缺乏专业医学知识引导以及对大量标注数据依赖性强三大核心挑战。
一、 作者、机构与发表信息
本研究的主要作者包括Ruiqi Wu、Chenran Zhang、Jianle Zhang、Yi Zhou、Tao Zhou和Huazhu Fu。他们分别来自东南大学计算机科学与工程学院、新一代人工智能技术与应用教育部重点实验室、南京理工大学以及新加坡科技研究局高性能计算研究所。该研究以题为“MM-Retinal: Knowledge-Enhanced Foundational Pretraining with Fundus Image-Text Expertise”的论文形式,于2024年发表在MICCAI (International Conference on Medical Image Computing and Computer-Assisted Intervention) 会议论文集(LNCS 15001卷)上。第一作者及通讯作者的邮箱分别为 ruiqiwu@seu.edu.cn 和 yizhou.szcn@gmail.com。
二、 研究的学术背景与目的
本研究属于医学人工智能领域,具体聚焦于眼底图像分析。深度学习虽在该领域取得进展,但现有模型大多基于特定任务和单个数据集进行训练。这种范式导致了三个主要弱点:1)模型在不同场景下的泛化能力和鲁棒性差;2)在模型学习阶段,缺乏专业的眼底领域知识指导;3)对大量标注训练数据的需求巨大。尽管像RetFound和FLAIR等研究已尝试构建眼底基础模型,但它们或仅依赖大规模图像数据进行掩码图像建模,或仅将简单的分类标签名称映射为固定文本,均未能有效整合蕴含丰富临床经验的、详细的“图像-文本对”专业知识。
因此,本研究旨在构建一个能够分析多种眼底疾病的通用基础模型,并且期望该模型能够利用更少的训练数据和更多的先验知识进行学习。为实现这一目标,研究者认为需要一个高质量的、包含专家知识的眼底视觉-语言数据集。这样的数据集不仅能促进基础模型的发展,还能推动将知识融入模型以提升其可解释性的研究,并推进多模态眼底图像分析等领域的前进。
具体而言,本研究有两个核心目标: 1. 构建MM-Retinal多模态数据集:一个包含高质量眼底图像-文本对的数据集,图像来源于专业的眼底图谱书籍,文本是眼科医生提供的精确、详细的图像描述,蕴含丰富的临床知识。 2. 提出并训练KEEPFiT基础模型:一个知识增强的基础预训练模型。该模型利用MM-Retinal数据集,通过创新的方法将专家知识注入到模型的学习过程中,以提升模型在下游任务上的性能、泛化能力和可迁移性。
三、 详细的研究流程与方法
研究流程主要分为两大阶段:数据集构建(MM-Retinal) 和模型设计与训练(KEEPFiT)。
第一阶段:MM-Retinal数据集的构建 该阶段旨在创建一个包含彩色眼底照相(Color Fundus Photography, CFP)、眼底荧光素血管造影(Fundus Fluorescein Angiography, FFA)和光学相干断层扫描(Optical Coherence Tomography, OCT)三种模态的高质量图像-文本对数据集。构建流程是一个半自动化的四步骤管线: 1. 原始数据采集与提取:从眼疾相关的专业图谱书籍中收集原始图像和文本。使用Adobe软件和光学字符识别(OCR)技术分别提取图像和文字。 2. 图像-文本对齐与分割:将提取出的图像与文本进行对齐。使用正则表达式匹配技术,将可能包含多个子图的图注进行分离,确保每个子图与其对应的描述文本精确配对。 3. 图像模态分类与筛选:利用K-means聚类和颜色直方图分析等技术,将图像自动分类为CFP、FFA和OCT三种模态。对于样本量极少的非常规模态,予以排除。 4. 人工校验与翻译:一个六人团队花费四周时间,手动校正OCR识别错误和无关文本,并对所有文本进行翻译,最终提供双语(英文和中文)版本。
最终构建的MM-Retinal数据集包含2169例CFP、1947例FFA和233例OCT数据,总计超过4.3k个高质量的图像-文本对。每个“案例”包含一张图像和对应的中英文描述文本。由于OCT模态数据量较小,本研究暂未对其进行深入探索,重点放在了CFP和FFA模态上。数据统计分析显示,MM-Retinal覆盖了超过96种异常和疾病,文本描述较长且词汇多样性丰富,与仅使用类别标签名称的现有数据集(如FLAIR)相比,蕴含了更全面的专家知识。
第二阶段:KEEPFiT模型的设计与训练 研究者提出了KEEPFiT,一个知识增强的视觉-语言预训练框架。其核心创新在于设计了两种方法,将MM-Retinal中蕴含的专家知识注入到基于公共数据集的预训练过程中。
视觉-语言预训练框架基础:
专家知识注入方法:
[X_public, Y_public] 及其特征 (V_public, T_public),以及一个来自MM-Retinal的图像-文本对 [X_mm, Y_mm] 及其特征 (V_mm, T_mm)。V_public 与MM-Retinal图像特征 V_mm 之间的相似性,以此作为引导。V_public 作为查询(Query),以 V_mm 作为键(Key),以 T_mm(即专家知识文本特征)作为值(Value)。通过注意力权重,从MM-Retinal的文本特征中提取与当前公共数据集图像最相关的专家知识。T_public 进行比较,计算一个均方误差损失 L_ek。这个损失函数的目标是驱动模型使用从MM-Retinal中提取的专家知识来“修订”或“增强”公共数据集中过于简略的文本特征。总体训练目标:模型的总损失函数由三部分组成:公共数据集的对比损失 L_p、MM-Retinal的对比损失 L_m 以及上述的专家知识修订损失 L_ek。总损失 L = L_p + L_m + α * L_ek,其中α是权重系数,经验性地设置为100以获得最佳性能。
四、 主要实验结果与分析
研究进行了详尽的实验,从泛化能力、可迁移性和消融研究三个方面验证了MM-Retinal数据集和KEEPFiT模型的有效性。
泛化能力评估(零样本与少样本学习):
可迁移性评估(下游任务微调):
消融研究(Ablation Study):
五、 研究结论与价值
本研究成功构建了首个高质量、多模态的眼底图像-文本专业知识数据集MM-Retinal,并在此基础上提出了知识增强的基础预训练模型KEEPFiT。实验证明,KEEPFiT在多种下游任务上,尤其是在数据稀缺的零样本和少样本场景中,展现出卓越的泛化能力、鲁棒性和可迁移性,性能达到了最先进水平。
研究的科学价值与应用价值: 1. 数据资源价值:MM-Retinal数据集填补了眼底多模态、高质量知识型数据集的空白,为后续研究提供了宝贵的资源,可促进可解释AI、多模态分析、知识图谱构建乃至高质量文生图等研究方向。 2. 方法论价值:提出的“基于图像相似性的文本修订”和“混合训练策略”,为如何在数据驱动的深度学习模型中有效融入领域专家知识提供了一种新颖且高效的范式。这种方法论可推广至其他医学影像乃至更广泛的视觉-语言任务中。 3. 模型价值:KEEPFiT作为一个强大的眼底基础模型,有望降低开发特定眼底分析应用对大量标注数据的依赖,加速AI在眼科临床辅助诊断、筛查和教学中的落地应用。
六、 研究亮点
七、 其他有价值的内容
研究团队在论文中公开了MM-Retinal数据集和KEEPFiT模型的访问地址(文中以“available at here”提示),体现了其推动领域发展的开放精神。此外,论文也指出了当前版本的局限,例如OCT模态数据量较小,未来计划扩展,展现了持续改进的规划。团队亦对参与数据集构建的成员表示了感谢,并声明无相关利益冲突。这些细节都符合严谨的学术规范。