Brain Harmony(BrainHarmonix):首个统一脑结构与功能的多模态基础模型
作者与机构
本研究的核心作者包括Zijian Dong、Ruilin Li、Joanna Su Xian Chong等,主要来自新加坡国立大学(National University of Singapore)和Miromind AI。该研究发表于第39届神经信息处理系统会议(NeurIPS 2025),是人工智能与神经影像学交叉领域的重大突破。
学术背景
人类大脑是一个兼具复杂解剖结构和动态功能活动的器官。现有神经影像技术(如结构MRI和功能MRI)通常仅能捕捉单一模态的信息,导致对大脑的认知存在局限性。尽管近年来涌现了多种脑基础模型(如BrainLM、Brain-JEPA等),但它们均局限于单一模态(结构或功能),且无法处理功能MRI(fMRI)中异质性重复时间(Repetition Time, TR)的数据。此外,神经科学研究表明,大脑功能动态受其几何形态的物理约束,但现有模型未充分整合这一关键关系。为此,研究团队提出BrainHarmonix,首次将脑形态学(morphology)与功能动态(functional dynamics)统一为紧凑的一维(1D)表征,并解决了多TR兼容性问题。
研究流程与方法
1. 单模态预训练(Unimodal Encoding, UE)
- 结构模态(BrainHarmonix-S):基于64,594例T1加权MRI数据(来自UK Biobank和ABCD数据集),采用3D掩码自编码器(MAE)学习脑解剖结构特征。
- 功能模态(BrainHarmonix-F):
- 几何谐波预对齐:利用群体水平的皮层表面网格生成拉普拉斯-贝尔特拉米算子(Laplace-Beltrami Operator),将fMRI信号与脑几何形态约束对齐。
- 时序自适应分块嵌入(Temporal Adaptive Patch Embedding, TAPE):创新性算法动态调整不同TR(0.735–2.94秒)的fMRI时间序列分块大小,确保每个token表征一致的时序长度(τ=35.28秒)。首次提出通过下采样生成多TR数据增强(如将TR=0.735秒的数据扩展至1.47秒、2.205秒等)。
多模态融合(Multimodal Fusion, MF)
下游任务微调
主要结果
1. 性能优势
- BrainHarmonix在ABIDE-II(准确率66.67%)、ADHD-200(70.09%)和PPMI(64.34%)等任务中均超越现有模型(表1、2)。其功能模态子模型(BrainHarmonix-F)凭借TAPE算法,在异质TR数据上表现优异(如ADHD-200的F1分数达68.75%)。
- 线性探测(Linear Probing)实验显示,仅冻结模型参数并训练线性分类头即可达到SOTA性能(图5),证明其表征的泛化能力。
关键技术创新验证
潜在空间分析
结论与价值
1. 科学意义
- 首次实现脑结构与功能动态的统一表征,验证了“功能遵循结构”的神经科学假说。
- 提出的TAPE算法解决了多TR数据整合难题,为异质神经影像数据的规模化分析提供工具。
研究亮点
1. 方法创新:
- 首个多模态脑基础模型,融合几何谐波与自适应时序嵌入。
- 提出首个fMRI数据增强策略(多TR下采样)。
2. 技术突破:
- 将高维神经影像压缩为连续1D token,构建紧凑的脑表征空间。
- 在8块H100 GPU上完成训练,效率优于同类模型。
局限性与未来方向
当前模型未覆盖全生命周期数据(如婴幼儿期),且未探索联合优化单模态编码器与融合模块的潜力。未来可发展为“脑数字孪生”工具,进一步揭示行为表型与脑结构-功能耦合的关系。
附加分析
合成测试(表7)证实TAPE对TR变化的鲁棒性:在HCP-A数据集上,原始测试集(TR=0.8秒)与合成测试集(TR=1.6⁄2.4秒)的MAE差异仅为0.13,相关性仅下降0.03。此外,多模态融合的性能增益显著高于单纯增加参数规模(表8),凸显了跨模态整合的必要性。