Lee、Kang、Nho、Sohn和Kim等人于2019年6月28日在期刊Frontiers in Genetics(第10卷,文章617)上发表了一项研究。该研究由多机构团队合作完成,主要作者Garam Lee来自韩国Ajou University软件与计算机工程系和美国Geisinger健康系统的生物医学与转化信息学研究所;Byungkon Kang同样来自Ajou大学;Kwangsik Nho来自美国印第安纳大学医学院;通讯作者Kyung-Ah Sohn来自Ajou大学,Dokyoon Kim来自美国Geisinger健康系统、宾夕法尼亚大学佩雷尔曼医学院生物统计学、流行病学和信息学系以及宾夕法尼亚大学生物医学信息学研究所。
本研究属于生物信息学与计算生物学领域,具体聚焦于多模态数据整合方法学。随着生物医学数据呈指数级增长,数据类型日趋异构化(如基因组学、影像学、临床量表等),如何有效地整合这些来自不同领域(domain)的数据以提取互补信息,从而获得更深入的生物学见解,已成为一个关键挑战。传统的机器学习方法在处理此类任务时面临诸多困难,例如如何处理长度可变的时间序列数据、如何整合样本不完全重叠(non-overlapping samples)的多模态数据集,以及如何在数据维度高而样本量有限的常见情况下构建有效模型。近年来,深度学习(Deep Learning)方法在自然语言处理、计算机视觉等领域显示出强大潜力,并在部分生物医学数据整合研究中取得了有希望的结果。然而,直接应用深度学习需要专业知识来构建能够处理多模态、尤其是纵向(longitudinal,即时间序列)数据的复杂网络架构,这限制了其广泛使用。因此,本研究旨在开发一个用户友好的、基于深度学习的开源工具包,以解决上述挑战。具体目标是:1)构建一个能够灵活处理变长时间序列与非时间序列数值数据的统一框架;2)允许使用所有可用样本(包括模态不全的非重叠样本)进行模型训练;3)通过结合深度学习(用于特征学习)和线性模型(用于分类和解释),在保证预测性能的同时,获得更好的模型可解释性(interpretability),以辅助生物标志物(biomarker)的发现与研究。该研究推出的框架命名为“MILDLINT”(Deep Learning-based Multimodal Longitudinal Data INTegration framework)。
该研究的详细工作流程主要分为两个核心阶段,并包含在仿真数据和真实数据上的验证实验。
第一阶段:从每个单模态时间序列数据中提取特征。 该阶段的核心任务是处理输入数据并将其转换为固定长度的特征向量。研究框架被设计为可接受任何形式的数值数据,无论是多时间点的纵向数据还是单时间点的静态数据。对于每个模态的数据(例如认知评分、脑脊液生物标志物、磁共振成像特征等),框架都将其视为一个序列进行处理。关键技术是使用门控循环单元(Gated Recurrent Unit, GRU)。GRU是循环神经网络(Recurrent Neural Network, RNN)的一种变体,专门用于处理序列数据。它通过“更新门(update gate)”和“重置门(reset gate)”的机制,能够学习序列中的长期依赖关系,同时避免了传统RNN的梯度消失问题。与另一种常用变体长短期记忆网络(Long Short-Term Memory, LSTM)相比,GRU参数更少,在生物医学领域通常样本量有限的情况下,更易于训练且不易过拟合。在MILDLINT中,每个模态的数据都输入一个独立的GRU组件。GRU依次处理序列中的每个时间点,并不断更新其隐藏状态(hidden state)。最终,取最后一个时间步的隐藏状态作为该模态整个序列的“总结”,即一个固定长度的特征向量。如果输入是单时间点数据(如静态的人口统计学信息),那么GRU网络就退化为一个简单的全连接网络,依然可以输出一个特征向量。这个阶段的关键在于,每个GRU模型仅针对单一模态的数据进行训练和优化,学习该模态内部最具预测性的特征表示,而无需考虑其他模态的影响。
第二阶段:最终分类。 此阶段的目标是整合第一阶段从所有模态学习到的特征表示,并进行最终决策。整合方法采用简单而有效的拼接(concatenation)方式:将来自不同GRU组件的特征向量首尾相连,形成一个更长的整合特征向量。这个整合向量理论上包含了来自所有数据源的互补信息。然后,该向量被送入一个分类器进行预测。在MILDLINT框架中,默认并推荐使用逻辑回归(Logistic Regression, LR)分类器,特别是L1正则化的逻辑回归。选择逻辑回归的主要原因是其具有良好的可解释性。训练完成后,逻辑回归模型每个特征对应的系数(beta coefficient)可以用于衡量该特征对预测结果的重要性,从而帮助研究人员识别和探究哪些来自不同模态的特征组合是关键的生物标志物。这种“深度学习特征提取 + 线性模型分类解释”的两阶段架构,是本研究方法设计上的一个亮点,旨在同时追求高性能和高可解释性。
验证实验: 为了验证MILDLINT框架的性能,研究团队设计了两组实验。
1. 仿真数据分类实验。 研究团队使用自回归模型(autoregressive model)生成了用于二元分类任务的仿真多模态时间序列数据。首先生成两个底层网络A0和A1作为生成数据的“模板”,分别对应类别0和类别1。通过调节参数d(距离,从0到1)来控制两个模板的差异程度,d越大表示两类数据越容易区分。然后,从这些模板中选取子网络来模拟不同的数据模态。最终生成了1000个样本,每个样本包含多个时间点的数据,但只有500个样本拥有全部模态的数据(重叠样本),其余500个样本仅拥有部分模态的数据(非重叠样本)。这种设置模拟了真实世界中数据缺失和不完全重叠的常见情况。实验评估了在不同模态数量(单模态 vs. 多模态)和不同时间序列长度(仅单时间点 vs. 多时间点)下的分类性能,并将MILDLINT与支持向量机(SVM)、随机森林(RF)和逻辑回归(LR)等传统方法进行了对比。
2. 真实数据分类实验。 作为一个试点研究,本研究使用来自阿尔茨海默病神经影像学倡议(Alzheimer’s Disease Neuroimaging Initiative, ADNI)队列的真实数据来预测轻度认知障碍(Mild Cognitive Impairment, MCI)向阿尔茨海默病(AD)的转化。研究共纳入865名MCI受试者,整合了四个模态的数据:认知表现评分(802个样本)、脑脊液(CSF)生物标志物(601个样本)、磁共振成像(MRI)特征(865个样本)以及人口统计学信息(865个样本)。其中,认知评分和CSF数据是纵向的(平均时间长度分别为4.05和1.69),而MRI和人口统计学数据作为单时间点数据输入。在所有样本中,有601个样本是四个模态都具备的重叠样本(其中200名是MCI转化者,401名是非转化者)。研究目标是基于这些多模态数据构建一个二元分类器(转化 vs. 不转化)。此外,研究还将MILDLINT的性能与文献中已发表的、使用类似ADNI数据预测MCI转化的多种方法进行了比较。
研究的详细结果如下:
在仿真数据实验中,结果清晰展示了整合多模态数据和利用时间序列信息的优势。当仅使用单时间点数据时,无论是单模态还是多模态输入,所有分类器的性能都受到数据中随机误差项的较大影响,准确率在不同距离d下的表现不稳定。然而,当使用多模态单时间点数据时,MILDLINT显示出显著优势:随着模板差异度d从0.5增加到1.0,其分类准确率稳步提升,并在d达到0.8时实现了100%的准确率。相比之下,SVM、RF和标准LR由于无法利用非重叠样本,其性能提升有限且未能达到完美分类。这证明了MILDLINT能够有效利用所有可用样本(包括非重叠样本)进行训练的价值。当进一步利用时间序列数据时,效果更加明显。如图3所示,即使仅使用单模态时间序列数据,随着使用的时间点数量增加,MILDLINT的分类准确率也持续上升,因为更多时间点提供了更丰富的动态信息。而当使用多模态时间序列数据时,性能提升更为显著:只要时间序列长度超过6,MILDLINT就能在d从0.5到1.0的广泛范围内实现完美分类。这些结果有力地验证了MILDLINT框架在整合多模态和纵向数据方面的强大能力。
在真实数据实验中,结果反映了现实世界数据的复杂性和挑战。由于真实数据中存在大量缺失值,且纵向数据的时间点较短(认知评分平均4.05次,CSF平均1.69次),因此仅利用时间序列特性带来的性能提升是有限的。然而,整合多模态数据带来了明确的益处。如图4所示,同时使用认知评分、人口统计学、CSF和MRI四个模态的数据进行整合预测,取得了最佳的分类性能(准确率约79%),优于仅使用任何单一模态(如仅MRI或仅认知评分)的结果。这表明不同模态的数据确实提供了互补的信息。研究还将MILDLINT的性能与表2中列出的七种先前发表的、基于ADNI数据的MCI转化预测方法进行了对比。这些方法使用了不同的模型(如SVM、高斯过程、深度神经网络等)和不同的数据组合(如MRI+PET+CSF等)。MILDLINT取得了具有竞争力的预测结果(准确率0.79,敏感性0.83,特异性0.77),与当前最佳方法(如Lu等人2018年的深度神经网络方法,准确率0.82)表现相当。这证明了MILDLINT作为一个通用框架,在真实生物医学问题上的有效性。
本研究的结论是,MILDLINT提供了一个基于多模态GRU的、用于异构数据整合的深度学习框架。其主要优势在于能够灵活处理变长时间序列数据和多模态数据,并且可以利用所有可用样本(包括非重叠样本)来训练分类器。通过仿真数据和真实ADNI数据的验证,结果表明:1)整合多模态数据能提升性能;2)利用时间序列信息能进一步提升性能;3)该框架在真实世界预测任务中能达到与现有专门方法相当的水平。此外,由于框架采用模块化设计并输出具有可解释性的逻辑回归系数,它有助于研究人员从整合的特征中发现有意义的生物标志物。
本研究的亮点和价值在于:方法论创新:提出了一个结合深度学习(特征学习)和线性模型(可解释分类)的两阶段框架,平衡了性能与可解释性。灵活性:能够统一处理纵向与非纵向数值数据,并有效利用非重叠样本,提高了数据使用效率。开源工具:以Python软件包的形式发布,降低了研究人员应用深度学习进行复杂数据整合的技术门槛,促进了该方法的可及性和可重复性。应用示范:在阿尔茨海默病这一重大公共卫生挑战上进行了成功的试点应用,展示了其在神经退行性疾病以及其他需要多维度数据整合的生物医学研究领域(如癌症多组学整合)的潜在广泛应用价值。
该研究也明确了MILDLINT的运行要求:基于Python 2.7.x,依赖pandas, numpy, tensorflow和sklearn等库,并建议使用GPU版本的TensorFlow以加速计算。最后,研究承认了潜在的利益冲突缺失,并说明了资金来源,包括美国国立卫生研究院(NIH)和韩国国家研究基金会(NRF)的资助。