基于图神经网络的Cox比例风险模型增强及其在癌症预后中的应用

一、研究背景与学科前沿 癌症预后分析一直是医学领域的核心研究方向。近年来,随着高通量测序技术(high-throughput sequencing technologies)的广泛应用,科学家们得以深入探索癌症患者的分子生物标志物(biomarker)和临床特征,从而帮助临床医生更准确地评估患者的生存风险,制定个体化治疗策略。传统的 Cox 比例风险模型(Cox proportional hazards model)作为经典的生存分析工具,因其优秀的统计基础和适应性而被广泛应用于癌症预后研究。 然而,随着深度学习(Deep Learning, DL)以及多组学(omics)数据的引入,科学家们逐步认识到传统 Cox 模型在特征提取和复杂关系建模方面的不足。许多基于深度学习的方法往往侧重于特征...

模块响应分析的测试与局限性克服

研究背景:网络推断新挑战 在现代分子生物学和系统生物学领域,对生物分子网络(如基因调控网络、蛋白质互作网络、信号传导网络等)的精准解析被视为理解细胞生命活动、疾病发病机制和药物作用机理的核心。然而,这些生物网络极为复杂,普遍存在节点众多、连接关系错综、非线性动态强烈以及实验测量噪音大的难题。作者们正是在这样的大背景下,选择聚焦于“模块响应分析(Modular Response Analysis, MRA)”方法。MRA是一类基于对系统节点施加扰动,并分析扰动响应以推断模块间相互作用的经典方法,尤其适用于节点可以灵活定义为“基因、蛋白质、代谢物或蛋白复合体等多尺度结构单元(模块)”的网络解析。 尽管MRA长期以来在中小规模网络解析、稳态扰动数据分析等方面被广泛应用,并见证了算法层面的多种优化,...

随机森林变量选择方法在连续结果回归建模中的比较

背景介绍:变量选择在机器学习回归模型中的重要性 近年来,机器学习在生物信息学与数据科学领域的广泛应用极大推动了预测建模的发展。随机森林(Random Forest, RF)回归作为常用的集成学习算法,因其能有效提升预测准确性和模型稳健性,成为建构连续型结局预测模型的重要工具。然而,面对高维数据,模型中的预测变量越多,并不一定意味着预测性能的提升,反而可能导致信息冗余、模型过拟合,或影响实际应用的便利性。因此,“变量选择(Variable Selection/Feature Selection/Feature Reduction)”成为极为关键的建模步骤。 变量选择不仅能够减少变量冗余、提升预测性能和模型泛化能力,还能降低后续数据收集及模型部署的成本,提高模型的解释性与应用效率。以往学者提出了...

利用MHC II与肽序列预测干扰素-γ释放:多样化计算方法探索 —— 一项机器学习赋能的免疫学研究综述

学术背景与研究意义 近几十年来,治疗性蛋白(therapeutic proteins)由于其在医学领域的巨大潜力,成为生物制药行业的研究重点。治疗性蛋白药物以其高度的靶向性为优势,被认为对许多以往难以治疗的急性或慢性疾病(如某些自身免疫病、癌症等)提供了解决方案。从1880年代血清治疗的发现到1986年首个单克隆抗体药物muromonab-CD3的推出,治疗性蛋白市场持续扩大,预计将在2032年达到近474亿美元。然而,治疗性蛋白引发免疫反应(immunogenicity)这一问题却一直困扰着药物研发人员。免疫反应既可能带来有害副作用,也可能激活治疗机制,例如疫苗就是通过激发体内免疫应答以实现免疫保护。 在蛋白药物所引发免疫反应的分子机制中,MHC(major histocompatibil...

机器学习预测器可信度评估的共识声明

一、背景介绍:医学领域中的机器学习与可信度挑战 近年来,随着人工智能(Artificial Intelligence, AI)和机器学习(Machine Learning, ML)技术的飞速发展,医疗健康领域发生了巨大变革。尤其是在体外仿真医学(in silico medicine)中,机器学习预测器已成为估算人体生理和病理中某些难以直接测量指标的重要工具,如疾病风险评估、治疗反应预测等。然而,随着机器学习越来越多地直接影响临床决策,对其预测结果的可信度(credibility)提出了前所未有的高标准。换言之,如何确保机器学习模型在医学实际应用中既准确又可靠,成为学界和产业界急需解决的核心科学问题。 与传统基于生物物理原理(biophysical models,亦称“第一性原理模型”)的预测...

硬件兼容的扰动训练算法的扩展研究

随着人工智能(AI)技术的快速发展,人工神经网络(Artificial Neural Networks, ANNs)在多个领域取得了显著成就。然而,传统的神经网络训练方法——尤其是反向传播算法(Backpropagation)——在硬件实现上存在诸多挑战。反向传播算法虽然在软件中高效,但在硬件中实现时,要求计算路径可逆、每个神经元需要大量内存,并且需要计算激活函数的导数,这些条件在硬件中难以满足。此外,传统的互补金属氧化物半导体(CMOS)硬件在训练和部署这些算法时,能源消耗巨大,限制了其扩展性和广泛应用。 为了解决这些问题,研究人员开始探索脑启发(brain-inspired)的硬件解决方案,尤其是模拟神经形态硬件(analog neuromorphic hardware)。这类硬件能够以...