脑和谐：一种将形态与功能统一为1D标记的多模态基础模型

分享自：

脑和谐：一种将形态与功能统一为1D标记的多模态基础模型

医学

神经科学与心理学

期刊:39th conference on neural information processing systems (NeurIPS 2025)

【点击此处】阅读全文、收藏及针对性提问

Brain Harmony（BrainHarmonix）：首个统一脑结构与功能的多模态基础模型
作者与机构
 本研究的核心作者包括Zijian Dong、Ruilin Li、Joanna Su Xian Chong等，主要来自新加坡国立大学（National University of Singapore）和Miromind AI。该研究发表于第39届神经信息处理系统会议（NeurIPS 2025），是人工智能与神经影像学交叉领域的重大突破。
学术背景
 人类大脑是一个兼具复杂解剖结构和动态功能活动的器官。现有神经影像技术（如结构MRI和功能MRI）通常仅能捕捉单一模态的信息，导致对大脑的认知存在局限性。尽管近年来涌现了多种脑基础模型（如BrainLM、Brain-JEPA等），但它们均局限于单一模态（结构或功能），且无法处理功能MRI（fMRI）中异质性重复时间（Repetition Time, TR）的数据。此外，神经科学研究表明，大脑功能动态受其几何形态的物理约束，但现有模型未充分整合这一关键关系。为此，研究团队提出BrainHarmonix，首次将脑形态学（morphology）与功能动态（functional dynamics）统一为紧凑的一维（1D）表征，并解决了多TR兼容性问题。
研究流程与方法
 1. 单模态预训练（Unimodal Encoding, UE）
 - 结构模态（BrainHarmonix-S）：基于64,594例T1加权MRI数据（来自UK Biobank和ABCD数据集），采用3D掩码自编码器（MAE）学习脑解剖结构特征。
 - 功能模态（BrainHarmonix-F）：
 - 几何谐波预对齐：利用群体水平的皮层表面网格生成拉普拉斯-贝尔特拉米算子（Laplace-Beltrami Operator），将fMRI信号与脑几何形态约束对齐。
 - 时序自适应分块嵌入（Temporal Adaptive Patch Embedding, TAPE）：创新性算法动态调整不同TR（0.735–2.94秒）的fMRI时间序列分块大小，确保每个token表征一致的时序长度（τ=35.28秒）。首次提出通过下采样生成多TR数据增强（如将TR=0.735秒的数据扩展至1.47秒、2.205秒等）。
多模态融合（Multimodal Fusion, MF）
通过128个可学习的1D脑枢纽token（Brain Hub Tokens）整合结构与功能表征。这些token通过Transformer架构（Harmonizer）从两种模态中提取共享信息，并由轻量级解码器（(D_s)和(D_f)）重建模态特异性潜在空间。
 
下游任务微调
在6个神经影像基准数据集上评估，涵盖：
 神经发育障碍分类：自闭症（ABIDE-I/II）、多动症（ADHD-200）；
 
神经退行性疾病诊断：帕金森病（PPMI）、轻度认知障碍（ADNI）；
 
认知预测：执行功能（HCP-A）。
 
主要结果
 1. 性能优势
 - BrainHarmonix在ABIDE-II（准确率66.67%）、ADHD-200（70.09%）和PPMI（64.34%）等任务中均超越现有模型（表1、2）。其功能模态子模型（BrainHarmonix-F）凭借TAPE算法，在异质TR数据上表现优异（如ADHD-200的F1分数达68.75%）。
 - 线性探测（Linear Probing）实验显示，仅冻结模型参数并训练线性分类头即可达到SOTA性能（图5），证明其表征的泛化能力。
关键技术创新验证
几何谐波对齐：与未预对齐的模型相比，ABIDE-II分类准确率提升3.34%（图6）。
 
多TR数据增强：通过下采样生成分层TR数据，使ADHD-200任务性能提升1.36%。
 
1D token可扩展性：token数量从32增至128时性能持续提升，随后趋于饱和（图5）。
 
潜在空间分析
t-SNE可视化显示，BrainHarmonix-F的嵌入与几何谐波模态的关联性显著强于Brain-JEPA（表3），证实结构约束的有效性。
 
注意力机制分析发现，93个枢纽token专用于功能模态，30个专用于结构模态，5个实现跨模态交互，例如默认模式网络（Default Mode Network）与内侧前额叶皮层的耦合。
 
结论与价值
 1. 科学意义
 - 首次实现脑结构与功能动态的统一表征，验证了“功能遵循结构”的神经科学假说。
 - 提出的TAPE算法解决了多TR数据整合难题，为异质神经影像数据的规模化分析提供工具。
应用前景
 在精神疾病（如自闭症、帕金森病）的早期诊断和认知预测中展现临床潜力。
 
模型开源（GitHub: hzlab/brain-harmony）可推动AI驱动神经科学研究。
 
研究亮点
 1. 方法创新：
 - 首个多模态脑基础模型，融合几何谐波与自适应时序嵌入。
 - 提出首个fMRI数据增强策略（多TR下采样）。
 2. 技术突破：
 - 将高维神经影像压缩为连续1D token，构建紧凑的脑表征空间。
 - 在8块H100 GPU上完成训练，效率优于同类模型。
局限性与未来方向
 当前模型未覆盖全生命周期数据（如婴幼儿期），且未探索联合优化单模态编码器与融合模块的潜力。未来可发展为“脑数字孪生”工具，进一步揭示行为表型与脑结构-功能耦合的关系。
附加分析
 合成测试（表7）证实TAPE对TR变化的鲁棒性：在HCP-A数据集上，原始测试集（TR=0.8秒）与合成测试集（TR=1.6⁄2.4秒）的MAE差异仅为0.13，相关性仅下降0.03。此外，多模态融合的性能增益显著高于单纯增加参数规模（表8），凸显了跨模态整合的必要性。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问