MAEST:基于图掩码自编码器的空间转录组学中的精确空间域检测

空间转录组学——解析组织空间异质性的前沿技术 空间转录组学(Spatial Transcriptomics, ST)是一项近年来蓬勃发展的测序技术,其核心在于能够在组织切片层面,兼顾基因表达与空间位置信息,为揭示多细胞生物组织的空间结构、功能分区及疾病微环境提供了前所未有的数据基础。随着10x Visium、Slide-seq、Stereo-seq、seqFISH和MERFISH等平台技术的逐步成熟,科学家得以获得高分辨率、空间可追溯的大规模基因表达数据,极大推动了发育生物学、神经科学及肿瘤生物学等领域的进步。 空间结构域识别(Spatial Domain Identification)则是空间转录组数据分析中的核心环节。其目标是将表达模式相近、地理位置相邻的细胞点(Spot)分为具有生物学...

深度学习加持的蛋白质复合物界面质量评估:TopoQA顶点——在蛋白质结构精准预测新时代下的创新突破

学术背景 蛋白质复合物三维结构的解析是现代结构生物学、分子机理研究、药物设计乃至于人工蛋白质设计等领域的核心课题。蛋白质的功能往往由其结构所决定,而众多生物过程涉及蛋白质间复杂的相互作用。虽然传统的实验手段(如X射线晶体学、冷冻电镜、NMR等)虽能解析蛋白质的三维结构,但耗时繁琐、成本高昂,难以满足高通量或大规模研究需求。近年来,数据驱动的蛋白质结构预测方法(如AlphaFold、RoseTTAFold等)取得了革命性突破,尤其是在单体蛋白模型的准确度方面甚至能够媲美实验结构。然而,蛋白质复合物结构预测的准确度仍未达到单体预测的高度,特别是在多聚体与抗体-抗原等复杂体系中,仍有巨大的提升空间。 在实际应用中,研究者往往需要从机器学习或深度学习模型产生的大量“候选结构”(decoys)中筛选出...

基于Granger因果循环自编码器的时间序列单细胞RNA测序数据推断基因调控网络

一、学术背景与研究动机 近年来,单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)已成为生命科学与医学研究领域极具突破力的技术之一,使得研究者能够以单个细胞为单位,捕捉到众多细胞间转录水平的微妙差异。这项技术极大地丰富了细胞生物学,对理解细胞分化、发育和疾病发生机制具有重要意义。基于scRNA-seq数据,推断基因调控网络(gene regulatory networks, GRNs),进而揭示转录因子与靶基因间复杂的调控关系,已成为当前生物信息学和系统生物学中的关键问题之一。 然而,scRNA-seq数据本身具有高噪声、高稀疏性和“掉落事件”(dropout events)等特点,带来了极大的数据分析挑战。尤其是在分析时间序列单细胞数据(time...

优化复杂形态性状表型的新方法显著提升遗传变异位点的发现力 —— 以人脸三维形态为例

一、学术背景与研究动因 近年来,基因型-表型(Genotype-Phenotype, G-P)关联分析已成为揭示复杂性状遗传基础的核心手段,尤其在人类面部、四肢、骨骼等多维结构性状的研究中获得了快速发展。传统上,G-P分析依赖简单、预设的人体解剖测量指标,或者采用诸如主成分分析(Principal Component Analysis, PCA)等无监督降维技术,抽取如“主成分(principal components)”“特征面(eigen-shapes)”等数据驱动特征。这些方法虽然流行,但并不一定能够选取真正携带丰富遗传信息、具有遗传生物学相关性的表型轴线。换言之,很多PCA得出的特征主轴,虽然能够涵盖大部分形态变异,却并未必在基因层面具备最大化的解释力,容易遗漏关键的遗传信号。 此外...

通过整合因果提示大语言模型与多组学数据驱动的因果推理识别癌症基因

癌症基因的准确识别是癌症基础研究和精准医疗领域的核心难题。近日,Jilin University与Zhejiang Sci-Tech University的研究团队在《Briefings in Bioinformatics》期刊上发表了题为《Cancer gene identification through integrating causal prompting large language model with omics data–driven causal inference》的原创性研究论文。本文完整梳理了该论文的研究背景、学术创新、方法流程、研究结论及其深远意义。 一、学术研究背景 1. 多组学癌症基因识别的需求 癌症作为全球范围内死亡率最高的疾病之一,其发生和进展本质上是一个...

基于图神经网络的Cox比例风险模型增强及其在癌症预后中的应用

一、研究背景与学科前沿 癌症预后分析一直是医学领域的核心研究方向。近年来,随着高通量测序技术(high-throughput sequencing technologies)的广泛应用,科学家们得以深入探索癌症患者的分子生物标志物(biomarker)和临床特征,从而帮助临床医生更准确地评估患者的生存风险,制定个体化治疗策略。传统的 Cox 比例风险模型(Cox proportional hazards model)作为经典的生存分析工具,因其优秀的统计基础和适应性而被广泛应用于癌症预后研究。 然而,随着深度学习(Deep Learning, DL)以及多组学(omics)数据的引入,科学家们逐步认识到传统 Cox 模型在特征提取和复杂关系建模方面的不足。许多基于深度学习的方法往往侧重于特征...

模块响应分析的测试与局限性克服

研究背景:网络推断新挑战 在现代分子生物学和系统生物学领域,对生物分子网络(如基因调控网络、蛋白质互作网络、信号传导网络等)的精准解析被视为理解细胞生命活动、疾病发病机制和药物作用机理的核心。然而,这些生物网络极为复杂,普遍存在节点众多、连接关系错综、非线性动态强烈以及实验测量噪音大的难题。作者们正是在这样的大背景下,选择聚焦于“模块响应分析(Modular Response Analysis, MRA)”方法。MRA是一类基于对系统节点施加扰动,并分析扰动响应以推断模块间相互作用的经典方法,尤其适用于节点可以灵活定义为“基因、蛋白质、代谢物或蛋白复合体等多尺度结构单元(模块)”的网络解析。 尽管MRA长期以来在中小规模网络解析、稳态扰动数据分析等方面被广泛应用,并见证了算法层面的多种优化,...

蛋白质-配体对接在低中分辨率冷冻电镜密度图下的新突破:DockEM方法研究综述

学术背景与研究动因 近年来,蛋白质-配体对接(protein–ligand docking)作为虚拟药物筛选(virtual drug screening)和结构基础新药研发(structure-based drug discovery)的核心技术,得到了迅速发展。随着大规模高通量筛选技术的应用,药物发现的效率有所提升,但新药开发依然面临成本高昂、周期漫长、转化率有限等问题。传统的小分子对接方法多基于蛋白质与配体三维结构及能量函数的评估,但如何进一步提升对接的精准度,是该领域持续努力解决的关键技术难题。 与此同时,冷冻电镜(cryo-electron microscopy, cryo-EM)技术以其无需结晶、可解析膜蛋白与大分子复合物等特点,已发展为结构生物学的重要手段。虽然部分冷冻电镜密度...

随机森林变量选择方法在连续结果回归建模中的比较

背景介绍:变量选择在机器学习回归模型中的重要性 近年来,机器学习在生物信息学与数据科学领域的广泛应用极大推动了预测建模的发展。随机森林(Random Forest, RF)回归作为常用的集成学习算法,因其能有效提升预测准确性和模型稳健性,成为建构连续型结局预测模型的重要工具。然而,面对高维数据,模型中的预测变量越多,并不一定意味着预测性能的提升,反而可能导致信息冗余、模型过拟合,或影响实际应用的便利性。因此,“变量选择(Variable Selection/Feature Selection/Feature Reduction)”成为极为关键的建模步骤。 变量选择不仅能够减少变量冗余、提升预测性能和模型泛化能力,还能降低后续数据收集及模型部署的成本,提高模型的解释性与应用效率。以往学者提出了...

利用MHC II与肽序列预测干扰素-γ释放:多样化计算方法探索 —— 一项机器学习赋能的免疫学研究综述

学术背景与研究意义 近几十年来,治疗性蛋白(therapeutic proteins)由于其在医学领域的巨大潜力,成为生物制药行业的研究重点。治疗性蛋白药物以其高度的靶向性为优势,被认为对许多以往难以治疗的急性或慢性疾病(如某些自身免疫病、癌症等)提供了解决方案。从1880年代血清治疗的发现到1986年首个单克隆抗体药物muromonab-CD3的推出,治疗性蛋白市场持续扩大,预计将在2032年达到近474亿美元。然而,治疗性蛋白引发免疫反应(immunogenicity)这一问题却一直困扰着药物研发人员。免疫反应既可能带来有害副作用,也可能激活治疗机制,例如疫苗就是通过激发体内免疫应答以实现免疫保护。 在蛋白药物所引发免疫反应的分子机制中,MHC(major histocompatibil...