分享自:

脑和谐:一种将形态与功能统一为1D标记的多模态基础模型

期刊:39th conference on neural information processing systems (NeurIPS 2025)

Brain Harmony(BrainHarmonix):首个统一脑结构与功能的多模态基础模型

作者与机构
本研究的核心作者包括Zijian Dong、Ruilin Li、Joanna Su Xian Chong等,主要来自新加坡国立大学(National University of Singapore)和Miromind AI。该研究发表于第39届神经信息处理系统会议(NeurIPS 2025),是人工智能与神经影像学交叉领域的重大突破。

学术背景
人类大脑是一个兼具复杂解剖结构和动态功能活动的器官。现有神经影像技术(如结构MRI和功能MRI)通常仅能捕捉单一模态的信息,导致对大脑的认知存在局限性。尽管近年来涌现了多种脑基础模型(如BrainLM、Brain-JEPA等),但它们均局限于单一模态(结构或功能),且无法处理功能MRI(fMRI)中异质性重复时间(Repetition Time, TR)的数据。此外,神经科学研究表明,大脑功能动态受其几何形态的物理约束,但现有模型未充分整合这一关键关系。为此,研究团队提出BrainHarmonix,首次将脑形态学(morphology)与功能动态(functional dynamics)统一为紧凑的一维(1D)表征,并解决了多TR兼容性问题。

研究流程与方法
1. 单模态预训练(Unimodal Encoding, UE)
- 结构模态(BrainHarmonix-S):基于64,594例T1加权MRI数据(来自UK Biobank和ABCD数据集),采用3D掩码自编码器(MAE)学习脑解剖结构特征。
- 功能模态(BrainHarmonix-F)
- 几何谐波预对齐:利用群体水平的皮层表面网格生成拉普拉斯-贝尔特拉米算子(Laplace-Beltrami Operator),将fMRI信号与脑几何形态约束对齐。
- 时序自适应分块嵌入(Temporal Adaptive Patch Embedding, TAPE):创新性算法动态调整不同TR(0.735–2.94秒)的fMRI时间序列分块大小,确保每个token表征一致的时序长度(τ=35.28秒)。首次提出通过下采样生成多TR数据增强(如将TR=0.735秒的数据扩展至1.47秒、2.205秒等)。

  1. 多模态融合(Multimodal Fusion, MF)

    • 通过128个可学习的1D脑枢纽token(Brain Hub Tokens)整合结构与功能表征。这些token通过Transformer架构(Harmonizer)从两种模态中提取共享信息,并由轻量级解码器((D_s)和(D_f))重建模态特异性潜在空间。
  2. 下游任务微调

    • 在6个神经影像基准数据集上评估,涵盖:
      • 神经发育障碍分类:自闭症(ABIDE-I/II)、多动症(ADHD-200);
      • 神经退行性疾病诊断:帕金森病(PPMI)、轻度认知障碍(ADNI);
      • 认知预测:执行功能(HCP-A)。

主要结果
1. 性能优势
- BrainHarmonix在ABIDE-II(准确率66.67%)、ADHD-200(70.09%)和PPMI(64.34%)等任务中均超越现有模型(表1、2)。其功能模态子模型(BrainHarmonix-F)凭借TAPE算法,在异质TR数据上表现优异(如ADHD-200的F1分数达68.75%)。
- 线性探测(Linear Probing)实验显示,仅冻结模型参数并训练线性分类头即可达到SOTA性能(图5),证明其表征的泛化能力。

  1. 关键技术创新验证

    • 几何谐波对齐:与未预对齐的模型相比,ABIDE-II分类准确率提升3.34%(图6)。
    • 多TR数据增强:通过下采样生成分层TR数据,使ADHD-200任务性能提升1.36%。
    • 1D token可扩展性:token数量从32增至128时性能持续提升,随后趋于饱和(图5)。
  2. 潜在空间分析

    • t-SNE可视化显示,BrainHarmonix-F的嵌入与几何谐波模态的关联性显著强于Brain-JEPA(表3),证实结构约束的有效性。
    • 注意力机制分析发现,93个枢纽token专用于功能模态,30个专用于结构模态,5个实现跨模态交互,例如默认模式网络(Default Mode Network)与内侧前额叶皮层的耦合。

结论与价值
1. 科学意义
- 首次实现脑结构与功能动态的统一表征,验证了“功能遵循结构”的神经科学假说。
- 提出的TAPE算法解决了多TR数据整合难题,为异质神经影像数据的规模化分析提供工具。

  1. 应用前景
    • 在精神疾病(如自闭症、帕金森病)的早期诊断和认知预测中展现临床潜力。
    • 模型开源(GitHub: hzlab/brain-harmony)可推动AI驱动神经科学研究。

研究亮点
1. 方法创新
- 首个多模态脑基础模型,融合几何谐波与自适应时序嵌入。
- 提出首个fMRI数据增强策略(多TR下采样)。
2. 技术突破
- 将高维神经影像压缩为连续1D token,构建紧凑的脑表征空间。
- 在8块H100 GPU上完成训练,效率优于同类模型。

局限性与未来方向
当前模型未覆盖全生命周期数据(如婴幼儿期),且未探索联合优化单模态编码器与融合模块的潜力。未来可发展为“脑数字孪生”工具,进一步揭示行为表型与脑结构-功能耦合的关系。

附加分析
合成测试(表7)证实TAPE对TR变化的鲁棒性:在HCP-A数据集上,原始测试集(TR=0.8秒)与合成测试集(TR=1.62.4秒)的MAE差异仅为0.13,相关性仅下降0.03。此外,多模态融合的性能增益显著高于单纯增加参数规模(表8),凸显了跨模态整合的必要性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com