分享自:

基于参数高效适配3D视觉与语言基础模型的冠状动脉CTA报告生成

期刊:IEEE

这篇文档于2024年发表在*2024 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)*上,其标题为“C2RG: Parameter-Efficient Adaptation of 3D Vision and Language Foundation Model for Coronary CTA Report Generation”。这是一篇关于单个原创性研究的学术论文。因此,根据您的要求,我将以学术报告的形式,向中文读者介绍这项研究。

冠状动脉CTA报告生成的参数高效适配:C2RG模型研究报告

本研究的主要作者来自多个顶尖研究机构,包括鹏城实验室网络智能部(Zhiyu Ye, Wei Shi, Bang Yang, Shibin Wu, Hancong Wang, Tong Zhang*)、中国科学院深圳先进技术研究院Paul C. Lauterbur生物医学成像研究中心(Zhiyu Ye, Hancong Wang, Hairong Zheng*)、北京协和医院放射科(Yue Sun, Cheng Xu, Yining Wang)、中山大学(Wei Shi)、北京大学深圳研究生院(Bang Yang)以及清华大学深圳国际研究生院(Shibin Wu)。其中,† 标注的作者(Zhiyu Ye, Yue Sun)对研究工作贡献相等, 标注的作者(Hairong Zheng, Yining Wang, Tong Zhang)为通讯作者。

一、 学术背景与研究目标

本研究的核心科学领域是医学人工智能中的多模态学习,具体聚焦于医学报告生成。心血管疾病是全球主要死因,冠状动脉CT血管成像是一种广泛应用的无创、高分辨率三维成像技术,用于评估冠状动脉疾病。然而,撰写反映检查结果的放射学报告(包含整体及节段性钙化、狭窄评估)通常需要放射科医生进行大量手动测量和计算,过程耗时耗力。尽管深度学习已在冠状动脉图像分析方面取得进展,但针对冠状动脉CTA的自动化医学报告生成研究此前仍属空白。现有的MRG方法大多遵循标准的编码器-解码器框架,并主要依赖于二维医学图像(如胸片)的大型标注数据集(如MIMIC-CXR)进行训练。这些方法面临两个主要挑战:首先,性能严重依赖大量标注数据,而三维医学图像与报告的对齐数据通常非常有限;其次,二维图像仅捕捉单一平面信息,难以满足对三维结构(如冠状动脉树)进行全面诊断的需求。随着视觉-语言基础模型在通用领域的成功,如何以参数高效的方式将这些强大的基础模型适配到资源有限的特定医学任务(如三维CTA报告生成),成为一个关键研究方向。

因此,本研究旨在解决以下问题:在仅有少量配对三维冠状动脉CTA图像和放射学报告的数据集上,如何构建一个能够自动生成准确、详细报告的系统?为此,研究团队提出了名为C2RG的新型模型。其核心目标是:第一,首次为三维冠状动脉CTA图像设计一个参数高效的视觉-语言基础模型适配流程,减少对大规模标注数据的依赖;第二,通过创新的网络结构设计,使模型能够同时学习低分辨率图像中的通用特征和高分辨率图像中的细粒度特征;第三,引入特定的损失函数来约束报告生成的整体准确性。

二、 详细研究流程与方法

本研究的工作流程清晰,主要包括数据准备、模型构建、训练与评估、以及广泛的对比与消融实验。

1. 数据采集与预处理 研究使用了一个内部临床数据集,该数据集包含来自118名受试者的453对三维冠状动脉CTA图像及其对应的放射学报告,并获得了研究伦理委员会的批准。每名受试者采集了3到4幅CTA图像(包括薄层和厚层),图像尺寸、平面分辨率和层厚在一定范围内变化。基于报告中关于整体冠状动脉钙化的描述,每个病例被标注为四种类别之一:‘0-无钙化’,‘1-轻度钙化’,‘2-中度钙化’,‘3-重度钙化’。为确保公平比较,实验中使用了将中文报告翻译成的英文版本。数据集按受试者划分为训练集(87人,329幅图像)、验证集(10人,41幅图像)和测试集(21人,83幅图像)。

在预处理阶段,所有三维图像的方向使用‘RAS’轴代码进行标准化,体素值被裁剪到[-300, 1700]范围并归一化至[0, 1]。为满足模型的多分辨率输入要求,原始图像被重采样:对于高分辨率路径,重采样至0.5×0.5×0.5 mm³并随机裁剪为(448, 448, 448)大小;对于低分辨率路径,重采样至1×1×1 mm³并确保裁剪为(224, 224, 224)大小,以保证两条路径覆盖相同的解剖区域。

2. C2RG模型架构设计 C2RG的整体架构受BLIP-2启发,包含三个主要组件:一个双分辨率三维视觉编码器、一个轻量级的查询变换器(Q-Former)以及一个大语言模型解码器。其核心创新在于参数高效地桥接了预训练好的三维视觉基础模型和双语LLM。

  • 双分辨率三维视觉编码器:这是模型的关键创新之一。为了解决高分辨率CTA图像细节丰富与训练数据有限之间的矛盾,作者设计了一个双路径编码器。一条是低分辨率路径:输入的低分辨率图像被分割成三维块,直接送入一个在公共三维心脏CT图像上通过掩码自编码器方法预训练好的心脏特异性视觉Transformer(一个ViT-B/16模型)。该模型冻结其参数,以利用其已有的心脏领域知识和三维编码能力。输出得到低分辨率视觉特征V_l。另一条是高分辨率路径:输入的高分辨率图像首先经过一个基于CNN的高分辨率特征提取器进行处理,输出一个通道数为C的特征图。然后,此特征图(而非原始图像)被送入同一个、但经过适配的ViT中。由于ViT的输入特征发生了变化,作者在ViT的每个Transformer块之间集成了参数高效的低秩适配器,以增强ViT对修改后输入特征的兼容性,同时保持其大部分参数冻结。输出得到高分辨率视觉特征V_h。最后,将V_l和V_h在特征维度上进行拼接,形成最终的视觉特征V,作为Q-Former的输入。这种设计使模型既能从预训练ViT中获取通用化的心脏特征(低分辨路径),又能通过额外的网络结构学习高分辨率图像中的精细细节(高分辨路径)。

  • 查询变换器与LLM解码器:Q-Former是一个轻量级的、类似BERT的Transformer,包含32个可学习的查询令牌。这些查询通过自注意力层和以一定频率插入的交叉注意力层,从视觉编码器输出的特征V中提取聚合的视觉信息。Q-Former输出的查询被线性投影为后续LLM的文本嵌入空间中的软视觉提示。对于LLM,研究选择了预训练的ChatGLM-6B,主要看重其优越的双语能力。在整个训练过程中,ViT和LLM这两个基础模型的参数保持冻结,仅优化Q-Former、高分辨率特征提取器、适配器以及新增的分类头等组件的参数,实现了参数高效微调。

  • 冠状动脉钙化评估损失函数:这是另一个重要的创新点。作者观察到,放射学报告中对整体冠状动脉钙化的评估(如“冠状动脉轻度钙化”)不仅出现在报告中,也是报告其他内容的总结。为了增强对输入LLM信息的监督并引导其输出,他们在Q-Former的输出查询令牌后添加了一个分类头,用于将钙化情况分为上述四类。并为此定义了一个冠状动脉钙化评估损失。该损失函数与标准的语言模型损失相结合,共同用于模型训练。这相当于为报告生成任务增加了一个额外的、与临床高度相关的约束信号,旨在提高生成报告的准确性。

3. 实验设置与评估方法 实验基于BLIP-2的官方代码构建。模型在1块NVIDIA A100 GPU上训练50个周期,使用AdamW优化器。生-成报告时采用束搜索解码算法。为了全面评估C2RG的性能,研究进行了严格的对比实验和消融实验。

  • 对比方法:研究比较了六种先进的视觉-语言方法,包括专门为MRG设计的R2Gen、R2GenCMN、PCLMed、MAKEn,以及通用的BLIP-2和用于视频描述的CARE模型。为确保公平,除CARE外,其他模型的视觉编码器均被替换为本研究使用的三维ViT,并在名称后加注“3d-vit”以示区别。

  • 评估指标:采用自然语言生成领域的常用指标来评估生成报告的质量,包括BLEU(1-4)、METEOR、CIDEr和ROUGE(1,2,L)。此外,还专门评估了从生成报告中提取出的整体冠状动脉钙化分类结果的精确率、召回率和F1分数。

三、 主要研究结果与分析

1. 与先进方法的定量比较结果 在报告生成质量的定量评估上,C2RG在多个关键指标上取得了最佳性能。如表II所示,C2RG在BLEU-1到BLEU-4、METEOR和CIDEr分数上均达到了最高值。虽然在ROUGE分数上略低于某些模型(如MAKEn),但作者分析指出,由于放射学报告中经常出现“钙化”、“狭窄”、“斑块”等特定表达,即使生成报告不够准确,也可能导致基于N-gram召回率的ROUGE分数偏高。因此,综合来看,C2RG在报告生成的准确性方面显著优于其他对比方法。

在冠状动脉钙化分类任务上(表III),C2RG的表现更为突出。其加权平均精确率和F1分数远高于所有对比模型。这直接证明了引入CCE损失函数的有效性:额外的分类监督确实帮助模型更好地理解和输出了与钙化评估相关的关键临床信息,而这反过来也提升了整体报告生成的质量。

2. 模型复杂度分析 如表I所示,尽管C2RG集成了庞大的视觉基础模型(ViT-B)和语言模型(ChatGLM-6B,约60亿参数),但其可训练参数量仅为1.239亿,与R2Gen、R2GenCMN等轻量级模型处于同一量级。这充分体现了其“参数高效”的设计理念:通过冻结基础模型、仅训练少量适配模块,在利用大模型强大能力的同时,大幅降低了训练开销和对数据量的需求。

3. 定性案例分析 图3展示了一个测试集案例的定性比较。与真实报告相比,C2RG生成的报告在结构、内容和临床细节上都非常接近。例如,它正确识别了“右冠状动脉优势型”和“冠状动脉轻度钙化”,并对各支血管的斑块性质和狭窄程度进行了详细描述,尽管在部分细节(如某处狭窄程度)上存在偏差。相比之下,其他一些模型(如PCLMed、BLIP-2)出现了明显的长句重复问题,而R2Gen等模型生成的报告则过于简略,遗漏了许多重要发现。这直观地说明了C2RG在生成内容的丰富性、准确性和流畅性方面的优势。

4. 消融实验结果 为了验证模型中各个创新组件的有效性,研究进行了系统的消融实验(表IV)。 * 编码器策略:比较了三种视觉编码策略:单一路径(仅用ViT处理低分辨图)、双路径融合前(在ViT前融合高低分辨特征)和双路径融合后(在ViT后融合特征,即C2RG采用的dual-pathafter)。结果显示,采用dual-pathafter并结合高分辨率特征提取器及适配ViT的设计,性能最优。这证实了双分辨率编码设计以及通过适配器调整ViT以处理高分辨率特征的必要性。 * CCE损失函数:在dual-pathafter架构基础上,加入CCE损失函数(表中打勾)后,模型在多数指标上(尤其是BLEU-2/3/4, METEOR, ROUGE-1/2)获得了进一步的提升。这明确了CCE损失对于提高报告生成质量的积极作用。

四、 研究结论与意义

本研究成功提出并验证了C2RG,这是一个专为三维冠状动脉CTA报告生成设计的、参数高效的视觉-语言基础模型适配框架。面对标注医学图像-报告对稀缺的挑战,C2RG通过整合预训练的三维心脏ViT和双语ChatGLM-6B,并辅以轻量级Q-Former和高分辨率特征提取模块,实现了对高分辨率CTA图像的细粒度特征学习与高质量报告生成。引入的冠状动脉钙化评估损失函数进一步约束并提升了报告的准确性。

科学价值:本研究首次将三维视觉-语言基础模型适配应用于冠状动脉CTA的自动化报告生成任务,为处理三维医学影像的MRG研究开辟了新方向。它系统性地展示了如何在数据有限的情况下,通过参数高效微调策略,将强大的通用基础模型成功地迁移到专业的临床领域,这为其他医学AI多模态任务提供了有价值的范式参考。

应用价值:C2RG模型有望辅助放射科医生,将他们从繁琐、重复的手工测量和报告撰写工作中部分解放出来,提高工作效率,并可能减少人为误差。生成的标准化报告可以作为初稿,由医生进行快速审核和修改,从而优化临床工作流程。该研究也预示着利用大规模预训练模型解决临床实际问题的巨大潜力。

五、 研究亮点

  1. 首创性:首次针对三维冠状动脉CTA图像的自动化报告生成问题,提出了一个完整的解决方案,填补了该细分领域的研究空白。
  2. 创新性方法
    • 参数高效适配管道:巧妙地将预训练的三维视觉基础模型与通用大语言模型通过轻量级模块连接,在保持强大模型能力的同时大幅减少可训练参数量。
    • 双分辨率三维视觉编码器:创新性地设计了高低分辨率双路径编码结构,有效解决了从有限数据中学习高分辨率图像细粒度特征的难题。
    • 冠状动脉钙化评估损失:创造性地将报告中的关键临床评估指标转化为辅助监督信号,通过多任务学习提升了报告生成的主任务性能。
  3. 卓越性能:在内部临床数据集上,C2RG在多项定量评估指标上超越了六种先进的基线模型,并通过详细的定性案例展示了其生成报告的临床实用性。
  4. 详实的验证:除了与SOTA方法对比,还进行了深入的消融实验,清晰验证了模型中各个核心组件的贡献,增强了研究的可靠性和说服力。

六、 其他有价值信息

作者在论文末尾承诺,代码将在会议结束后开源,这有利于促进该领域的可重复研究和后续发展。研究也得到了多项国家级和省级科研项目的资助,并使用了鹏城云脑的计算资源,同时感谢了开放媒体组和OpenI社区的支持,体现了合作与开放共享的科研精神。这些都为研究的深入和推广奠定了基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com