基于矩阵补全的集成学习提高微生物-疾病关联预测

学术背景与研究问题 微生物作为地球上最广泛存在的生命形式之一,与海洋、土壤以及人类自身均有密切关系。人体内约含有350万亿个微生物细胞(microbial cells),与人类健康、疾病的发生和发展息息相关。近年来,随着测序技术与生物信息学的快速进步,大量研究聚焦于阐明人体微生态(microbiome)组成及其功能对健康产生的影响。例如,肠道菌群组成的变化能够影响机体免疫和疾病发生,肝脏代谢也被证实受肠道微生物调控,会通过降低能量消耗、促进脂肪沉积等促进代谢疾病发展。 尽管实验生物医学对微生物-疾病(microbe-disease)关联的揭示已做出巨大努力,但已被实验确定的疾病相关微生物数量仍十分有限,传统实验方法既耗时又高成本,因此亟需高效、精准的计算方法,用于筛查潜在的微生物-疾病关联。...

蛋白质-蛋白质互作预测的新进展:HSSPPI模型从分层与空间-序列双视角全面解析蛋白互作位点

背景介绍:揭示蛋白互作预测的瓶颈与机遇 蛋白质(Protein)作为生命活动的核心分子,几乎参与了所有生物学过程与细胞功能,包括基因表达、RNA转录、DNA合成以及免疫反应等。蛋白分子之间的相互作用(Protein-Protein Interactions, PPI)以及特定位点上的互动(Protein-Protein Interaction Sites, PPIS)决定了多样且精确的生理活动。例如,药物设计、蛋白功能注释、疾病分子机制探索、以及全局蛋白互作网络构建等,都以高质量的PPI和PPIS信息为基础。 然而,传统基于生物实验(如X射线晶体学、质谱等)对PPI位点进行检测的方法耗时高、成本昂贵,并且面临样品复杂性高和可扩展性不足的问题。随着蛋白数据库的快速扩充及疾病防治需求的日益迫切,...

MAEST:基于图掩码自编码器的空间转录组学中的精确空间域检测

空间转录组学——解析组织空间异质性的前沿技术 空间转录组学(Spatial Transcriptomics, ST)是一项近年来蓬勃发展的测序技术,其核心在于能够在组织切片层面,兼顾基因表达与空间位置信息,为揭示多细胞生物组织的空间结构、功能分区及疾病微环境提供了前所未有的数据基础。随着10x Visium、Slide-seq、Stereo-seq、seqFISH和MERFISH等平台技术的逐步成熟,科学家得以获得高分辨率、空间可追溯的大规模基因表达数据,极大推动了发育生物学、神经科学及肿瘤生物学等领域的进步。 空间结构域识别(Spatial Domain Identification)则是空间转录组数据分析中的核心环节。其目标是将表达模式相近、地理位置相邻的细胞点(Spot)分为具有生物学...

深度学习加持的蛋白质复合物界面质量评估:TopoQA顶点——在蛋白质结构精准预测新时代下的创新突破

学术背景 蛋白质复合物三维结构的解析是现代结构生物学、分子机理研究、药物设计乃至于人工蛋白质设计等领域的核心课题。蛋白质的功能往往由其结构所决定,而众多生物过程涉及蛋白质间复杂的相互作用。虽然传统的实验手段(如X射线晶体学、冷冻电镜、NMR等)虽能解析蛋白质的三维结构,但耗时繁琐、成本高昂,难以满足高通量或大规模研究需求。近年来,数据驱动的蛋白质结构预测方法(如AlphaFold、RoseTTAFold等)取得了革命性突破,尤其是在单体蛋白模型的准确度方面甚至能够媲美实验结构。然而,蛋白质复合物结构预测的准确度仍未达到单体预测的高度,特别是在多聚体与抗体-抗原等复杂体系中,仍有巨大的提升空间。 在实际应用中,研究者往往需要从机器学习或深度学习模型产生的大量“候选结构”(decoys)中筛选出...

基于Granger因果循环自编码器的时间序列单细胞RNA测序数据推断基因调控网络

一、学术背景与研究动机 近年来,单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)已成为生命科学与医学研究领域极具突破力的技术之一,使得研究者能够以单个细胞为单位,捕捉到众多细胞间转录水平的微妙差异。这项技术极大地丰富了细胞生物学,对理解细胞分化、发育和疾病发生机制具有重要意义。基于scRNA-seq数据,推断基因调控网络(gene regulatory networks, GRNs),进而揭示转录因子与靶基因间复杂的调控关系,已成为当前生物信息学和系统生物学中的关键问题之一。 然而,scRNA-seq数据本身具有高噪声、高稀疏性和“掉落事件”(dropout events)等特点,带来了极大的数据分析挑战。尤其是在分析时间序列单细胞数据(time...

基于图神经网络的Cox比例风险模型增强及其在癌症预后中的应用

一、研究背景与学科前沿 癌症预后分析一直是医学领域的核心研究方向。近年来,随着高通量测序技术(high-throughput sequencing technologies)的广泛应用,科学家们得以深入探索癌症患者的分子生物标志物(biomarker)和临床特征,从而帮助临床医生更准确地评估患者的生存风险,制定个体化治疗策略。传统的 Cox 比例风险模型(Cox proportional hazards model)作为经典的生存分析工具,因其优秀的统计基础和适应性而被广泛应用于癌症预后研究。 然而,随着深度学习(Deep Learning, DL)以及多组学(omics)数据的引入,科学家们逐步认识到传统 Cox 模型在特征提取和复杂关系建模方面的不足。许多基于深度学习的方法往往侧重于特征...