解码蛋白质相分离密码:基于语言模型和构象嵌入的PSTP算法助力病理变异解释

一、学术背景与研究意义 近年来,蛋白质液-液相分离(phase separation,PS)作为调控细胞内生物分子的关键机制,受到生命科学领域的广泛关注。相分离不仅推动了无膜细胞器(biomolecular condensates)的形成,还广泛影响着生化反应速率、蛋白质组织与定位,并与癌症和神经变性疾病等重大疾病的发生密切相关。尽管相分离现象的生物学意义逐渐被认识,但其驱动机制和调控密码仍显复杂且难以捉摸,尤其是在驱动相分离的蛋白质区域识别方面,科学界仍然面临诸多挑战。 传统的相分离预测方法,大多依赖已有的蛋白质注释信息或人工设定的特征参数。这些方法虽然在已知蛋白质上表现良好,但面临着对未知蛋白质、变体和不同物种间广泛泛化能力的严重不足。同时,针对蛋白质序列的局部驱动区域(residue-...

揭秘三维基因组预测新引擎:CHROMBUS-XMBD——图卷积模型驱动的染色质互作预测

研究背景与学科意义 在真核细胞内,染色质(Chromatin)的三维空间结构对于基因表达调控有着至关重要的作用。DNA通过复杂的折叠、环化及局部空间重构,使不同基因元件(如启动子promoter、增强子enhancer等)在空间上变得邻近,并实现精细的顺式(cis)调控。近年来,无论在发育生物学、疾病机理还是表观遗传学研究中,三维基因组(3D-genome)的动态结构都被反复证明与基因表达变化密切相关。 当前,捕捉基因组空间构象的实验方法主要包括3C、4C、5C、Hi-C、ChIA-PET、HiChIP等。然而,这些实验方法成本高昂、操作复杂,且常常受到生物材料来源、分辨率及信噪比等条件限制,难以为多样化的生物学问题或疾病研究大规模提供数据。与此同时,随着多组学数据的积累,尤其是DNA序列、...

Deep scStar: 利用深度学习从单细胞RNA测序和空间转录组数据中提取和增强表型相关特征

近年来,单细胞测序(single-cell RNA sequencing,scRNA-seq)与空间转录组学(spatial transcriptomics, ST)等前沿技术极大推动了生命科学与临床医学的发展。其揭示了细胞异质性,提供了疾病、发育、免疫等重大领域的全新洞见。然而,大规模单细胞数据由于技术噪声强、批次效应(batch effects)复杂、生物信号多样且杂乱,使得“准确提取与增强与表型相关的特征”成为关键挑战之一。许多传统方法虽主攻降噪、整合,却可能同时削弱乃至丢失关键的表型决策信号,限制了研究者对疾病机制与细胞间互作的深入理解。 一、研究背景与意义 单细胞表型相关特征的识别对于阐明疾病进展、免疫应答、肿瘤耐药等问题至关重要。例如,在癌症免疫治疗、个体化诊疗中,能否准确识别那...

基于矩阵补全的集成学习提高微生物-疾病关联预测

学术背景与研究问题 微生物作为地球上最广泛存在的生命形式之一,与海洋、土壤以及人类自身均有密切关系。人体内约含有350万亿个微生物细胞(microbial cells),与人类健康、疾病的发生和发展息息相关。近年来,随着测序技术与生物信息学的快速进步,大量研究聚焦于阐明人体微生态(microbiome)组成及其功能对健康产生的影响。例如,肠道菌群组成的变化能够影响机体免疫和疾病发生,肝脏代谢也被证实受肠道微生物调控,会通过降低能量消耗、促进脂肪沉积等促进代谢疾病发展。 尽管实验生物医学对微生物-疾病(microbe-disease)关联的揭示已做出巨大努力,但已被实验确定的疾病相关微生物数量仍十分有限,传统实验方法既耗时又高成本,因此亟需高效、精准的计算方法,用于筛查潜在的微生物-疾病关联。...

基于单细胞多组学数据集的拷贝数变异推断工具基准测试

一、研究背景及意义 在肿瘤学和基因组研究领域,染色体拷贝数异常(Copy Number Alterations, CNAs)是导致癌症发生与进展的关键遗传变异类型。CNAs不仅决定了肿瘤的异质性,而且对早期肿瘤检测、肿瘤亚克隆(subclone)演化分析、耐药机制研究等具有重要意义。传统的检测拷贝数变异的方法主要依赖单细胞DNA测序(scDNA-seq),虽分辨率高,但受限于高昂成本及测序覆盖度低,难以在大规模、通量高的实际应用中广泛开展。 随着单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术的普及与数据积累,研究者发现,基于scRNA-seq数据在一定条件下也能够反推出潜在的基因组拷贝数变化,这大大拓展了利用已有转录组数据挖掘基因组结构变异...

蛋白质-蛋白质互作预测的新进展:HSSPPI模型从分层与空间-序列双视角全面解析蛋白互作位点

背景介绍:揭示蛋白互作预测的瓶颈与机遇 蛋白质(Protein)作为生命活动的核心分子,几乎参与了所有生物学过程与细胞功能,包括基因表达、RNA转录、DNA合成以及免疫反应等。蛋白分子之间的相互作用(Protein-Protein Interactions, PPI)以及特定位点上的互动(Protein-Protein Interaction Sites, PPIS)决定了多样且精确的生理活动。例如,药物设计、蛋白功能注释、疾病分子机制探索、以及全局蛋白互作网络构建等,都以高质量的PPI和PPIS信息为基础。 然而,传统基于生物实验(如X射线晶体学、质谱等)对PPI位点进行检测的方法耗时高、成本昂贵,并且面临样品复杂性高和可扩展性不足的问题。随着蛋白数据库的快速扩充及疾病防治需求的日益迫切,...

全新开源GC×GC–MS数据分析软件“gcduo”问世——多维色谱质谱数据分析的创新突破

学术背景与研究动因 随着复杂样品分析需求的日益增长,色谱技术,尤其是全二维气相色谱-质谱联用(GC×GC–MS, Comprehensive Two-dimensional Gas Chromatography coupled with Mass Spectrometry)作为无靶向代谢组学等领域的主力技术,尽显强大解析力。GC×GC–MS可在单次实验中同时分离和检测上百甚至数千种化合物成分,但其所产生的数据量庞大且结构复杂,维度高,数据解读困难,成为阻碍该技术广泛应用的最大瓶颈。尽管已有商业软件试图提供自动化的数据处理与解析,但高昂的成本、专业门槛,以及“黑箱”式算法的不透明,依然限制了数据深度挖掘和研究的灵活性。 为克服这些难题,学界逐渐将化学计量学(chemometrics)理念引入多...

揭示癌症新的标志性特征:肿瘤神经浸润全景图谱研究学术报道

癌症作为全球重大公共卫生难题,具有复杂的发生发展机制。长期以来,肿瘤微环境(tumor microenvironment,TME)的免疫、炎症、血管生成等过程被广泛关注,被视为肿瘤生物学行为的重要决定因素。近年来,癌症神经科学(cancer neuroscience)成为新兴交叉领域,发现神经系统不仅通过神经介质、递质等调控肿瘤发展,还通过神经-肿瘤细胞的直接或间接互作影响肿瘤的生长、转移与侵袭。尽管诸如“外周神经侵犯(perineural invasion, PNI)”等神经相关现象已受到关注,但系统性量化和评价“神经浸润”在肿瘤疾病中的广泛性、分子特征和临床意义仍处于初级阶段。本文报道正是基于这样的问题意识和科学背景展开,旨在深入探讨神经因素是否可作为肿瘤新标志性特征(cancer ha...

MAEST:基于图掩码自编码器的空间转录组学中的精确空间域检测

空间转录组学——解析组织空间异质性的前沿技术 空间转录组学(Spatial Transcriptomics, ST)是一项近年来蓬勃发展的测序技术,其核心在于能够在组织切片层面,兼顾基因表达与空间位置信息,为揭示多细胞生物组织的空间结构、功能分区及疾病微环境提供了前所未有的数据基础。随着10x Visium、Slide-seq、Stereo-seq、seqFISH和MERFISH等平台技术的逐步成熟,科学家得以获得高分辨率、空间可追溯的大规模基因表达数据,极大推动了发育生物学、神经科学及肿瘤生物学等领域的进步。 空间结构域识别(Spatial Domain Identification)则是空间转录组数据分析中的核心环节。其目标是将表达模式相近、地理位置相邻的细胞点(Spot)分为具有生物学...

深度学习加持的蛋白质复合物界面质量评估:TopoQA顶点——在蛋白质结构精准预测新时代下的创新突破

学术背景 蛋白质复合物三维结构的解析是现代结构生物学、分子机理研究、药物设计乃至于人工蛋白质设计等领域的核心课题。蛋白质的功能往往由其结构所决定,而众多生物过程涉及蛋白质间复杂的相互作用。虽然传统的实验手段(如X射线晶体学、冷冻电镜、NMR等)虽能解析蛋白质的三维结构,但耗时繁琐、成本高昂,难以满足高通量或大规模研究需求。近年来,数据驱动的蛋白质结构预测方法(如AlphaFold、RoseTTAFold等)取得了革命性突破,尤其是在单体蛋白模型的准确度方面甚至能够媲美实验结构。然而,蛋白质复合物结构预测的准确度仍未达到单体预测的高度,特别是在多聚体与抗体-抗原等复杂体系中,仍有巨大的提升空间。 在实际应用中,研究者往往需要从机器学习或深度学习模型产生的大量“候选结构”(decoys)中筛选出...