本研究旨在解决慢性疾病管理中实现个体化精准用药方案的难题,并取得了一项重要进展。以下是对该研究的学术报告。
第一、研究基本信息 本项研究的主要作者包括Chu Xiaoli, Ye Yiheng, Tang Siqiao, Han Miaoru, Wang Guowei, Lin Shuai, Sun Bingzhen, Huang Qingchun,以及共同通讯作者Zhang Yan*, Chu Xiaodong* 和 Bao Kun*。这些作者来自多个机构,包括广州中医药大学第二附属医院、国家中医湿证重点实验室、广东省中医院大数据与中医药研究院、广东财经大学信息学院、华南理工大学、中山市中医院、西安电子科技大学、暨南大学附属第一医院等,体现了多学科、多中心的合作模式。这项研究成果以题为《Personalized medication for chronic diseases using multimodal data-driven chain-of-decisions》的学术论文形式,于2025年发表在期刊《Advanced Science》上,论文电子识别号为e04079,开放获取。
第二、研究的学术背景与目标 慢性疾病(Chronic Diseases, CDs)如心血管疾病、癌症、糖尿病、慢性肾病、关节炎等,已成为全球健康的主要挑战,其导致的死亡人数占总死亡人数的70%以上,在中国也影响着数亿人口并消耗了巨额的医疗资源。个性化用药(Personalized Medication)是管理慢性疾病、提高疗效和降低副作用的关键策略。然而,在实践中,为慢性病患者制定精准的个体化用药方案面临巨大挑战。
传统上,基于机器学习的方法通常仅依赖于患者的宏观临床表型(如化验指标)或药物的微观分子特性(如靶点蛋白序列),缺乏一个能够整合患者个体特征与药物宏-微观属性的综合视角。临床医生在制定治疗方案时,实质上遵循一个三阶段的逻辑链式决策过程:首先是基于患者全面信息评估疾病严重程度;其次是根据药物特性筛选和组合有效治疗方案;最后是将筛选出的方案与患者个体特征进行匹配,确定最优个体化方案。然而,现有的AI模型未能有效建模这种链式决策过程及其内在的逻辑依赖性,导致在精准匹配“患者-药物”关系上存在局限。
针对这一问题,本研究受到人工智能领域“思维链”(Chain-of-Thought, CoT)推理范式的启发。思维链通过将复杂问题分解为一系列具有逻辑关联的子问题,模拟专家的分步推理过程,从而提高模型的解释性和准确性。本研究的目标是开发一个名为“多模态数据驱动的决策链”框架(Multimodal data-driven chain-of-decisions, MDD-CoD),以模拟上述临床决策过程。该框架旨在整合多模态的临床表型数据(影像、病理、实验室指标)、多属性的药物数据(中药药性、化药副作用、蛋白质序列、蛋白质相互作用网络等)以及临床专家知识,通过组织三个具有上下游逻辑依赖关系的深度学习任务,构建一个连贯的临床决策链条,最终实现基于个体特征的慢性病精准用药方案推荐。
第三、研究的详细工作流程 本研究的工作流程紧密围绕MDD-CoD框架的三个核心任务展开,构成了一条从诊断到治疗推荐的完整决策链。研究纳入了覆盖四种慢性疾病的五个数据集,涉及来自三家医院的3675名患者,共包含3173条单模态记录、502条多模态记录以及2187条药物治疗记录。涉及的疾病包括慢性肾病(CKD)、膜性肾病(MN)、类风湿关节炎(RA)、结直肠癌(CRC)和膝骨关节炎(KOA)。
1. 任务一(MDD-CoD1):多模态疾病严重程度评估模型 * 目的与处理对象:解决临床诊断中不同检查模态(如病理、影像、实验室指标)在评估疾病严重程度时权重不确定的问题。使用四个多模态数据集(RA、CRC、CKD、MN)和一个单模态数据集(KOA,仅表格数据)进行训练和验证。例如,CRC数据包含病理图像和实验室表格数据。 * 数据处理与模型方法: * 特征嵌入:采用不同的预训练模型提取各模态特征。对于病理和关节超声图像,使用了Giga-Path、HiPT和Vision Transformer (ViT)模型来提取图像特征(e_image)。对于包含数值和分类变量的实验室表格数据,采用了专门处理表格数据的FT-Transformer模型来提取特征(e_table)。 * 多模态融合与动态权重:这是本任务的核心创新。模型并非简单地将不同模态特征拼接,而是引入了一种基于梯度的动态权重调整策略。在训练过程中,通过计算图像和表格两种模态损失函数对模型参数的梯度范数,来衡量各自对最终疾病分层预测的贡献度。这些贡献度被输入到一个非线性投影网络中,生成每个模态的动态权重(w_image, w_table)以及一个整体融合权重(w_fusion)。 * 特征对齐与预测:使用交叉注意力机制(Cross-Attention)来建立模态间的交互关系,将表格特征作为查询,图像特征作为键和值,生成融合的患者特征表示(e_patient)。总损失函数结合了单模态分类损失、多模态分类损失以及梯度归一化损失,并通过动态权重进行加权求和。这模拟了医生在诊断时动态权衡不同检查结果重要性的过程。 * 新颖方法:动态权重调整策略和基于交叉注意力的多模态融合方法是本任务的关键创新,旨在更灵活、准确地整合异质性的医疗数据。
2. 任务二(MDD-CoD2):基于知识增强图神经网络的药物组合疗效预测模型 * 目的与处理对象:从宏观药理属性到微观分子层面,全面预测多种药物(包括中药和化药)联合使用时的疗效。研究利用三个疾病(RA、CKD、MN)的用药记录数据集,构建药物组合图。 * 数据处理与模型方法: * 图结构构建:将每个用药方案建模为一个图G=(V, E)。节点V代表单个药物。边E的初始连接和权重基于先验知识图确定,该图反映了不同药物在患者处方中的共现频率。权重w_ij由药物对的共现次数归一化得到。 * 多属性节点特征:每个药物节点的特征是多种属性的拼接,包括:1) 宏观药理学属性(对于中药:四气五味、归经、功效;对于化药:副作用),通过中文BERT预训练模型和注意力机制提取特征(f_macro)。2) 微观蛋白质序列,通过Protein-BERT预训练模型提取特征(f_micro)。3) 蛋白质相互作用网络,使用DeepWalk算法在PPI网络上进行随机游走,再通过Word2Vec模型学习蛋白质节点的向量表示(f_ppi)。DeepWalk在本研究中表现出优于其他图嵌入方法的性能。 * 图神经网络学习:将构建好的多属性图输入到一个基于Transformer的图神经网络层(GT层)中进行学习。该层不仅计算节点间的注意力权重,还将先验知识图提供的边权重w_ij融入到注意力计算中(α_ij公式),从而指导信息在图中的传播强度。这有助于学习药物间的互补或拮抗等复杂关系。 * 特征对齐与输出:使用变分自编码器对学习到的不同尺度的药物特征进行对齐,最终输出能够表征药物组合特性的特征向量(e_medication)。模型使用Focal Loss来处理类别不平衡问题。 * 新颖方法:构建融合先验知识(共现频率)和多层级药物属性(宏-微观)的异质图,并利用GT层进行学习,是本任务的核心创新。
3. 任务三(MDD-CoD3):患者-用药方案的匹配与推荐模型 * 目的与处理对象:将前两个任务得到的患者特征(e_patient)和药物方案特征(e_medication)进行匹配,为特定患者推荐个性化的用药方案排名。使用RA、CKD、MN三个具有完整模态和用药记录的数据集。 * 数据处理与模型方法: * 特征对齐:首先通过多层感知机将患者特征和药物方案特征映射到同一个语义嵌入空间,确保它们的维度对齐,具有可比性。 * 对比学习匹配:采用对比学习框架来训练模型。其核心思想是,让同一个患者的特征与其真实使用的用药方案特征在嵌入空间中距离更近(正样本对),而与其他随机用药方案特征的距离更远(负样本对)。损失函数(L_total)计算了从患者到药物和从药物到患者两个方向的对比损失平均值,迫使模型学习有判别力的匹配关系。 * 推荐与计算:训练完成后,对于一个新患者,模型计算其患者特征与知识库中所有候选用药方案特征的余弦相似度(confidence),并根据相似度得分进行排序,生成Top-K推荐列表(如Hit@10指标)。医生可以在此推荐列表基础上,结合患者的具体情况(如耐药性、不良反应等)做出最终选择。
第四、研究的主要结果及其逻辑关系 本研究的实验结果有力地支持了MDD-CoD框架的有效性和优越性,各任务结果环环相扣,共同指向精准用药决策的最终目标。
1. 疾病评估中的动态权重发现:MDD-CoD1任务的结果验证了动态权重调整策略的有效性。实验显示,相对于固定权重融合方法,动态加权能自动适应不同疾病下各模态的重要性差异,从而获得更高的疾病严重程度预测性能(平均AUROC提升2.6%,平均AUPRC提升1.7%)。更重要的是,研究量化了不同模态在不同疾病诊断中的关键贡献:在CRC、CKD和MN的诊断中,病理学模态扮演了关键角色;而在RA的诊断中,实验室指标的权重更高。这一发现首次清晰阐明了多源诊断工具在最终临床结论中的贡献权重,为其他慢性病的临床决策权重分配提供了范例。此结果为后续的精准匹配提供了更准确的“患者病情画像”(e_patient)。
2. 药物组合疗效的深度解析:MDD-CoD2任务的结果深入揭示了药物组合的规律。实验表明,融合了多属性(PPI、蛋白序列、药性)的模型预测性能最佳,显著优于仅使用单一属性的模型,证明了多维度信息互补的重要性。通过对预测疗效排名前15%的药物组合进行分析,发现了不同慢性病的用药模式差异:RA治疗以中药组合为主;MN治疗常见中药复方单独或与化药联用;CKD治疗则以化药为主导。尤为值得注意的是,中药与化药的联合使用展现出优越的治疗效果。例如,RA中的白花蛇舌草与正清风痛宁缓释片、MN中的三七与雷贝拉唑、CKD中的甲泼尼龙与半夏的组合排名靠前,这提示中药可能有助于缓解化药的副作用(如三七可能减轻甲泼尼龙的胃肠道不良反应)。此结果为药物推荐库提供了经过效能评估的、带有丰富特征描述的“候选药物方案画像”(e_medication)。
3. 个性化推荐的高效匹配:MDD-CoD3任务的最终匹配结果显示,该框架在患者-用药方案匹配任务上取得了卓越性能。在RA、MN和CKD数据集上,Hit@10指标分别达到了94%、81%和70%,显著超越了所有基线模型。这表明,基于前两个任务提取的高质量患者特征和药物特征,通过对比学习能够有效实现精准匹配。例如,对于一个患有MN、同时伴有高血压和贫血的“参考个体”,模型能够根据新患者与“参考个体”在诊断信息上的相似性,推荐出多个包含针对MN、高血压和贫血的综合性用药方案供医生选择。这验证了从“疾病评估”到“药物组合分析”再到“个性化匹配”这一完整决策链的逻辑合理性和实践可行性。
第五、研究的结论与价值 本研究的结论是成功构建并验证了一个用于慢性病管理的、稳健的MDD-CoD模型。该模型通过引入“决策链”概念,将复杂的临床用药决策问题分解为具有明确逻辑顺序的三个子任务,并利用多模态深度学习方法予以实现。它不仅能够逐步推导出疾病与药物的匹配关系,阐明药物组合对患者个体特征的作用机制,还能最终实现个性化的用药方案推荐。
本研究的价值体现在以下几个方面: * 科学价值:首次将思维链推理范式系统性地应用于临床精准用药决策,提出了“决策链”框架,为医疗人工智能领域提供了一种新的、可解释的、符合临床逻辑的问题解决范式。它推动了多模态医疗数据融合、图神经网络在医药知识挖掘、以及对比学习在医疗推荐中的应用边界。 * 应用价值:MDD-CoD作为一个临床混合数据的基础模型,展示了在跨疾病个性化诊疗决策任务中良好的泛化能力。它为临床医生提供了一个透明、可信的决策支持工具,能够辅助制定更精准、更个性化的慢性病治疗方案,有望提高疗效、减少不良反应,并优化医疗资源配置。研究所用数据均来源于真实世界的电子健康记录,确保了方案与临床实际的高度契合,具有强大的转化潜力。
第六、研究的亮点 1. 方法论创新:首创“多模态数据驱动的决策链”框架,将临床决策过程形式化为三个链式深度学习任务,极大地增强了模型的可解释性和临床合理性。 2. 技术融合创新:在任务一中,提出了基于梯度的多模态动态权重调整策略,模拟了医生的动态决策;在任务二中,构建了融合先验知识与多层级药物属性的异质图神经网络,深度挖掘了药物组合机理。 3. 数据与发现的新颖性:利用独特的多中心、多疾病慢性病数据集,首次量化了不同诊断模态在多种慢性病评估中的动态权重,并深入揭示了中西药联合应用在特定疾病中的优势组合模式,为中西医结合治疗提供了数据洞察。 4. 系统性验证:在覆盖四种慢性病、五个数据集上进行了从诊断评估、药效预测到最终匹配的全链条系统性实验验证,结果全面且说服力强。
第七、其他有价值内容 研究也坦诚地指出了当前框架的局限性,这为未来工作指明了方向。主要包括:1) 尚未纳入更微观的组学数据(如基因组学、代谢组学),未来整合这些数据可进一步提升精准医学水平;2) 模型泛化性有待在更多类型的慢性病(如心血管、呼吸系统疾病)上验证;3) 当前框架依赖于多模态诊断数据,未来需要开发基于单模态(如仅凭影像学改善评估药效)的推荐方法,以避免过度医疗。作者表示,后续工作将致力于整合时序多模态数据与预训练模型,以更好地对齐疾病进展与治疗策略,建立更精确的个性化用药推荐框架。