这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
MedReGA:面向多模态生物医学任务的可解释双语多模态大语言模型
1. 作者与发表信息
本研究由Lehan Wang(香港科技大学)、Haonan Wang(香港科技大学)、Honglong Yang(香港科技大学)、Jiaji Mao(中山大学孙逸仙纪念医院)、Zehong Yang(中山大学孙逸仙纪念医院)、Jun Shen(中山大学孙逸仙纪念医院)和Xiaomeng Li(香港科技大学,通讯作者)合作完成,发表于ICLR 2025会议。
2. 学术背景
研究领域:本研究属于医学人工智能(AI)与多模态大语言模型(Multimodal Large Language Model, MLLM)的交叉领域,聚焦于提升医学影像分析与文本生成的区域感知能力。
研究动机:现有医学通用模型(如MedDR)多为“区域无关”(region-agnostic),即将整张图像视为整体处理,无法精确定位影像中的解剖结构或病变区域,导致生成的报告存在定位错误(如将左脑病变误判为右脑)。这种局限性降低了模型的临床可信度与交互性。
研究目标:模仿医生“先全局观察,再聚焦局部”的工作流程,开发一种区域感知的医学MLLM(MedReGA),使其能够同时处理图像级(如报告生成)和区域级(如病变定位)任务,并支持中英双语。
3. 研究流程与方法
(1)区域中心任务定义与数据集构建
- 任务设计:
- 区域到文本识别(Region-to-Text Identification):给定边界框,模型输出区域内结构或病变的名称。
- 文本到区域检测(Text-to-Region Detection):根据文本指令定位目标区域并输出边界框。
- 基于区域的报告生成(Grounded Report Generation):生成与影像区域对齐的详细报告。
- 数据集MedRegInstruct:
- 来源:整合公开数据集(如MIMIC-CXR)和中山大学孙逸仙纪念医院的25k中英文扫描-报告对,覆盖X光、CT、MRI等8种模态。
- 自动标注系统:通过微调开源模型(如InternLM)自动标注器官边界框,降低人工标注成本。最终构建包含55万条区域-文本对和24万条区域-报告对的大规模数据集。
(2)模型开发(MedReGA)
- 架构基础:基于开源模型InternVL 1.2(视觉编码器InternViT-6B + 语言模型Nous-Hermes-2-Yi-34B),分两阶段训练:
- 对齐训练:冻结视觉与语言模块,仅优化对齐模块,使用医学图像描述数据(如PMC-OA)进行训练。
- 指令微调:联合公开数据集和MedRegInstruct,优化语言模型以支持区域任务。
- 区域编码:边界框格式为
<box>[x1, y1, x2, y2]</box>,关联文本用<ref></ref>标记,使模型理解空间关系。
(3)区域链式推理(Regional CoT)
在推理阶段,模型首先生成关键区域的边界框,再基于区域信息生成报告或诊断结果。例如,在多标签分类任务中,区域CoT使模型F1分数提升31.59%(优于无区域提示的基线)。
4. 主要结果
(1)通用医学任务性能
- 视觉问答(VQA):在Slake、VQA-RAD等基准测试中,MedReGA的英文和中文平均BLEU-1分别达67.65%和60.89%,超越MedDR等模型。
- 报告生成:在MIMIC-CXR和IU-XRay上,英文报告生成的BLEU-1提升3.91%~8.03%,中文报告生成提升27.34%。
- 影像分类:单标签分类F1达47.97%,多标签分类通过区域CoT提升至61.75%。
(2)区域中心任务性能
- 区域识别:结构识别准确率73.06%(病变识别59.42%),显著优于基线模型(如InternVL仅0.52%)。
- 区域检测:单目标单区域检测准确率45.11%,多目标多区域检测F1为68.03%。
- 基于区域的报告生成:在MIMIC-CXR上,区域对齐准确率76.59%,报告质量(如BLEU-1)提升33.18%。
5. 结论与价值
- 科学价值:首次将区域感知能力系统化融入医学MLLM,填补了通用模型在细粒度定位与描述方面的空白。
- 临床意义:通过可解释的区域-文本对齐,增强医生对模型输出的信任,支持交互式修正(如聚焦特定区域重新生成描述)。
- 技术突破:提出的MedRegInstruct数据集和区域CoT方法为后续研究提供了新范式。
6. 研究亮点
7. 其他价值
- 伦理合规:临床数据经匿名化处理,仅发布公开数据集衍生的标注结果。
- 跨学科应用:模型框架可扩展至其他需区域理解的领域(如工业检测)。
此报告完整呈现了MedReGA的研究逻辑、方法创新与临床潜力,为医学AI领域提供了重要的技术参考。