MM-Retinal: 基于眼底图像-文本专业知识的增强型基础预训练模型

分享自：
MM-Retinal: 基于眼底图像-文本专业知识的增强型基础预训练模型

信息科学
人工智能
期刊:Springer Nature Switzerland AGDOI:10.1007/978-3-031-72378-0_67
【点击此处】阅读全文、收藏及针对性提问
本文档报告了东南大学等机构的研究团队提出的一项原创研究，发表在国际顶级医学影像会议MICCAI 2024的会议论文集中。研究旨在解决当前眼底图像分析模型存在的泛化能力弱、缺乏专业医学知识引导以及对大量标注数据依赖性强三大核心挑战。
一、 作者、机构与发表信息
本研究的主要作者包括Ruiqi Wu、Chenran Zhang、Jianle Zhang、Yi Zhou、Tao Zhou和Huazhu Fu。他们分别来自东南大学计算机科学与工程学院、新一代人工智能技术与应用教育部重点实验室、南京理工大学以及新加坡科技研究局高性能计算研究所。该研究以题为“MM-Retinal: Knowledge-Enhanced Foundational Pretraining with Fundus Image-Text Expertise”的论文形式，于2024年发表在MICCAI (International Conference on Medical Image Computing and Computer-Assisted Intervention) 会议论文集（LNCS 15001卷）上。第一作者及通讯作者的邮箱分别为 ruiqiwu@seu.edu.cn 和 yizhou.szcn@gmail.com。
二、 研究的学术背景与目的
本研究属于医学人工智能领域，具体聚焦于眼底图像分析。深度学习虽在该领域取得进展，但现有模型大多基于特定任务和单个数据集进行训练。这种范式导致了三个主要弱点：1）模型在不同场景下的泛化能力和鲁棒性差；2）在模型学习阶段，缺乏专业的眼底领域知识指导；3）对大量标注训练数据的需求巨大。尽管像RetFound和FLAIR等研究已尝试构建眼底基础模型，但它们或仅依赖大规模图像数据进行掩码图像建模，或仅将简单的分类标签名称映射为固定文本，均未能有效整合蕴含丰富临床经验的、详细的“图像-文本对”专业知识。
因此，本研究旨在构建一个能够分析多种眼底疾病的通用基础模型，并且期望该模型能够利用更少的训练数据和更多的先验知识进行学习。为实现这一目标，研究者认为需要一个高质量的、包含专家知识的眼底视觉-语言数据集。这样的数据集不仅能促进基础模型的发展，还能推动将知识融入模型以提升其可解释性的研究，并推进多模态眼底图像分析等领域的前进。
具体而言，本研究有两个核心目标： 1. 构建MM-Retinal多模态数据集：一个包含高质量眼底图像-文本对的数据集，图像来源于专业的眼底图谱书籍，文本是眼科医生提供的精确、详细的图像描述，蕴含丰富的临床知识。 2. 提出并训练KEEPFiT基础模型：一个知识增强的基础预训练模型。该模型利用MM-Retinal数据集，通过创新的方法将专家知识注入到模型的学习过程中，以提升模型在下游任务上的性能、泛化能力和可迁移性。
三、 详细的研究流程与方法
研究流程主要分为两大阶段：数据集构建（MM-Retinal） 和模型设计与训练（KEEPFiT）。
第一阶段：MM-Retinal数据集的构建 该阶段旨在创建一个包含彩色眼底照相（Color Fundus Photography， CFP）、眼底荧光素血管造影（Fundus Fluorescein Angiography， FFA）和光学相干断层扫描（Optical Coherence Tomography， OCT）三种模态的高质量图像-文本对数据集。构建流程是一个半自动化的四步骤管线： 1. 原始数据采集与提取：从眼疾相关的专业图谱书籍中收集原始图像和文本。使用Adobe软件和光学字符识别（OCR）技术分别提取图像和文字。 2. 图像-文本对齐与分割：将提取出的图像与文本进行对齐。使用正则表达式匹配技术，将可能包含多个子图的图注进行分离，确保每个子图与其对应的描述文本精确配对。 3. 图像模态分类与筛选：利用K-means聚类和颜色直方图分析等技术，将图像自动分类为CFP、FFA和OCT三种模态。对于样本量极少的非常规模态，予以排除。 4. 人工校验与翻译：一个六人团队花费四周时间，手动校正OCR识别错误和无关文本，并对所有文本进行翻译，最终提供双语（英文和中文）版本。
最终构建的MM-Retinal数据集包含2169例CFP、1947例FFA和233例OCT数据，总计超过4.3k个高质量的图像-文本对。每个“案例”包含一张图像和对应的中英文描述文本。由于OCT模态数据量较小，本研究暂未对其进行深入探索，重点放在了CFP和FFA模态上。数据统计分析显示，MM-Retinal覆盖了超过96种异常和疾病，文本描述较长且词汇多样性丰富，与仅使用类别标签名称的现有数据集（如FLAIR）相比，蕴含了更全面的专家知识。
第二阶段：KEEPFiT模型的设计与训练 研究者提出了KEEPFiT，一个知识增强的视觉-语言预训练框架。其核心创新在于设计了两种方法，将MM-Retinal中蕴含的专家知识注入到基于公共数据集的预训练过程中。
视觉-语言预训练框架基础：
模型架构：采用双编码器结构。图像编码器（Image Encoder）使用在ImageNet上预训练的ResNet50，文本编码器（Text Encoder）使用在生物医学文本上预训练的BioClinicalBERT。两个编码器之后分别接一个投影头（Projection Head），将图像和文本特征映射到相同的维度（d=512）。
损失函数：对于MM-Retinal这类拥有真实、详细文本描述的数据，采用类似于CLIP的对比学习损失，目标是拉近匹配的图像-文本对特征，拉远不匹配对的特征。对于仅有类别标签的公共数据集（如FLAIR），则采用FLAIR论文中的方法，在批次内根据类别共现关系构建目标矩阵，鼓励同类样本的特征接近。
专家知识注入方法：
基于图像相似性的文本修订（Image Similarity-Guided Text Revision）：这是本研究的核心创新之一。研究者观察到，尽管公共数据集的文本提示（简单类别名）非常简略，但其图像与MM-Retinal中的图像在视觉特征上高度相似。因此，他们设计了一个轻量化的知识整合模块。具体流程如下： 给定一个来自公共数据集的图像-文本对 [X_public, Y_public] 及其特征 (V_public, T_public)，以及一个来自MM-Retinal的图像-文本对 [X_mm, Y_mm] 及其特征 (V_mm, T_mm)。
计算公共数据集图像特征 V_public 与MM-Retinal图像特征 V_mm 之间的相似性，以此作为引导。
使用多头交叉注意力机制（Multi-Head Cross-Attention），以 V_public 作为查询（Query），以 V_mm 作为键（Key），以 T_mm（即专家知识文本特征）作为值（Value）。通过注意力权重，从MM-Retinal的文本特征中提取与当前公共数据集图像最相关的专家知识。
将提取出的专家知识特征与原始的公共数据集文本特征 T_public 进行比较，计算一个均方误差损失 L_ek。这个损失函数的目标是驱动模型使用从MM-Retinal中提取的专家知识来“修订”或“增强”公共数据集中过于简略的文本特征。
混合训练策略（Mixed Training Strategy）：为避免模型在训练过程中因两种数据源（文本简略的公共数据集 vs. 文本详细的MM-Retinal）的差异而产生优化偏差，研究者提出了混合训练策略。即在每个训练批次（Batch）中，以1:1的比例同时包含来自公共数据集和MM-Retinal的样本。
总体训练目标：模型的总损失函数由三部分组成：公共数据集的对比损失 L_p、MM-Retinal的对比损失 L_m 以及上述的专家知识修订损失 L_ek。总损失 L = L_p + L_m + α * L_ek，其中α是权重系数，经验性地设置为100以获得最佳性能。
四、 主要实验结果与分析
研究进行了详尽的实验，从泛化能力、可迁移性和消融研究三个方面验证了MM-Retinal数据集和KEEPFiT模型的有效性。
泛化能力评估（零样本与少样本学习）：
实验设置：在未见过的疾病类别上，测试模型的零样本（Zero-Shot）和少样本（Few-Shot， 使用1、5、10个样本）分类能力。少样本学习采用了轻量化的适配器调优方法，如CLIP-Adapter和Tip-Adapter。
关键结果（见表1）： KEEPFiT在仅使用MM-Retinal和50%的FLAIR数据集进行预训练时，在三个不同的下游任务（ODIR200×3, REFUGE, FIVES）的少样本和零样本设置下，取得了全面且极具竞争力的最佳性能。
与使用超大规模合成数据集SynFundus-1M或完整FLAIR数据集训练的基线模型相比，加入MM-Retinal训练的KEEPFiT表现更优。这表明，高质量、富含知识的专家数据（MM-Retinal）对于提升模型的泛化能力和可迁移性，比单纯增加数据量（可能引入噪声）更为有效。
具体数据示例：在ODIR200×3任务的1-shot设置下，KEEPFiT (50%FLAIR+MM)的准确率（AcA）达到0.862，远高于基线模型FLAIR (仅用FLAIR数据)的0.403和FLAIR+Syn的0.603。
可迁移性评估（下游任务微调）：
实验设置：将预训练好的KEEPFiT模型在六个未见过的下游数据集上进行全参数微调或部分微调（如仅微调分类头），评估其在分类和图像描述生成等任务上的表现。
关键结果（见表2a和2b）： CFP模态：在REFUGE（青光眼评估）、FIVES（五种疾病分类）、ODIR200×3、TAOP、AMD等多个数据集上，使用MM-Retinal和FLAIR联合训练的KEEPFiT模型，在绝大多数数据使用比例（20%， 40%， 60%， 80%， 100%）下，都取得了最先进的（State-of-the-Art）性能。
FFA模态：在FFA-IR数据集上的图像描述生成任务中，同样观察到，当预训练数据同时包含MM-Retinal和FFA-IR时，模型在BLEU、METEOR、ROUGE、CIDER等各项指标上性能更优。
这些结果强有力地证明了，通过MM-Retinal注入的专家知识，显著提升了基础模型在不同类型下游任务上的可迁移性和性能上限。
消融研究（Ablation Study）：
实验设计：为了验证所提出的两个知识注入方法的必要性，研究者进行了系统的消融实验。
关键结果（见表2c）： 移除“基于图像相似性的文本修订”：模型性能显著下降，证明了该方法是整合专家知识、提升模型表现的关键。
移除“混合训练策略”：模型性能同样出现明显下滑，说明平衡两种不同性质数据源的训练对于稳定优化和避免偏差至关重要。
替换为“文本融合模块”：尝试将“文本修订”改为一个通过残差连接直接融合知识的“文本融合模块”，结果提升微乎其微。这表明，通过损失函数驱动的、有目标的“修订”过程，比简单的特征“融合”能更有效地注入知识。
五、 研究结论与价值
本研究成功构建了首个高质量、多模态的眼底图像-文本专业知识数据集MM-Retinal，并在此基础上提出了知识增强的基础预训练模型KEEPFiT。实验证明，KEEPFiT在多种下游任务上，尤其是在数据稀缺的零样本和少样本场景中，展现出卓越的泛化能力、鲁棒性和可迁移性，性能达到了最先进水平。
研究的科学价值与应用价值： 1. 数据资源价值：MM-Retinal数据集填补了眼底多模态、高质量知识型数据集的空白，为后续研究提供了宝贵的资源，可促进可解释AI、多模态分析、知识图谱构建乃至高质量文生图等研究方向。 2. 方法论价值：提出的“基于图像相似性的文本修订”和“混合训练策略”，为如何在数据驱动的深度学习模型中有效融入领域专家知识提供了一种新颖且高效的范式。这种方法论可推广至其他医学影像乃至更广泛的视觉-语言任务中。 3. 模型价值：KEEPFiT作为一个强大的眼底基础模型，有望降低开发特定眼底分析应用对大量标注数据的依赖，加速AI在眼科临床辅助诊断、筛查和教学中的落地应用。
六、 研究亮点
高质量专业知识数据集的原创构建：首次系统地从专业医学图谱中构建大规模、多模态的眼底图像-文本对数据集，其文本描述的长尾性、专业性和准确性是现有数据集无法比拟的。
创新的知识注入机制：提出的“基于图像相似性的文本修订”方法，巧妙地将视觉相似性作为桥梁，从详细的专家文本中蒸馏知识，用以增强简略的类别标签文本，机制新颖且有效。
卓越的少样本与零样本性能：研究核心验证了“质量重于数量”的理念，表明融入高质量专家知识可以极大地提升基础模型在数据稀缺场景下的实用性和可靠性，这对于临床实际应用具有重要意义。
全面且严谨的验证体系：研究不仅在多个下游任务上验证了模型性能，还通过详尽的消融实验深入剖析了各个创新组件的贡献，论证扎实。
七、 其他有价值的内容
研究团队在论文中公开了MM-Retinal数据集和KEEPFiT模型的访问地址（文中以“available at here”提示），体现了其推动领域发展的开放精神。此外，论文也指出了当前版本的局限，例如OCT模态数据量较小，未来计划扩展，展现了持续改进的规划。团队亦对参与数据集构建的成员表示了感谢，并声明无相关利益冲突。这些细节都符合严谨的学术规范。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问