解码蛋白质相分离密码:基于语言模型和构象嵌入的PSTP算法助力病理变异解释

一、学术背景与研究意义 近年来,蛋白质液-液相分离(phase separation,PS)作为调控细胞内生物分子的关键机制,受到生命科学领域的广泛关注。相分离不仅推动了无膜细胞器(biomolecular condensates)的形成,还广泛影响着生化反应速率、蛋白质组织与定位,并与癌症和神经变性疾病等重大疾病的发生密切相关。尽管相分离现象的生物学意义逐渐被认识,但其驱动机制和调控密码仍显复杂且难以捉摸,尤其是在驱动相分离的蛋白质区域识别方面,科学界仍然面临诸多挑战。 传统的相分离预测方法,大多依赖已有的蛋白质注释信息或人工设定的特征参数。这些方法虽然在已知蛋白质上表现良好,但面临着对未知蛋白质、变体和不同物种间广泛泛化能力的严重不足。同时,针对蛋白质序列的局部驱动区域(residue-...

揭秘三维基因组预测新引擎:CHROMBUS-XMBD——图卷积模型驱动的染色质互作预测

研究背景与学科意义 在真核细胞内,染色质(Chromatin)的三维空间结构对于基因表达调控有着至关重要的作用。DNA通过复杂的折叠、环化及局部空间重构,使不同基因元件(如启动子promoter、增强子enhancer等)在空间上变得邻近,并实现精细的顺式(cis)调控。近年来,无论在发育生物学、疾病机理还是表观遗传学研究中,三维基因组(3D-genome)的动态结构都被反复证明与基因表达变化密切相关。 当前,捕捉基因组空间构象的实验方法主要包括3C、4C、5C、Hi-C、ChIA-PET、HiChIP等。然而,这些实验方法成本高昂、操作复杂,且常常受到生物材料来源、分辨率及信噪比等条件限制,难以为多样化的生物学问题或疾病研究大规模提供数据。与此同时,随着多组学数据的积累,尤其是DNA序列、...

Deep scStar: 利用深度学习从单细胞RNA测序和空间转录组数据中提取和增强表型相关特征

近年来,单细胞测序(single-cell RNA sequencing,scRNA-seq)与空间转录组学(spatial transcriptomics, ST)等前沿技术极大推动了生命科学与临床医学的发展。其揭示了细胞异质性,提供了疾病、发育、免疫等重大领域的全新洞见。然而,大规模单细胞数据由于技术噪声强、批次效应(batch effects)复杂、生物信号多样且杂乱,使得“准确提取与增强与表型相关的特征”成为关键挑战之一。许多传统方法虽主攻降噪、整合,却可能同时削弱乃至丢失关键的表型决策信号,限制了研究者对疾病机制与细胞间互作的深入理解。 一、研究背景与意义 单细胞表型相关特征的识别对于阐明疾病进展、免疫应答、肿瘤耐药等问题至关重要。例如,在癌症免疫治疗、个体化诊疗中,能否准确识别那...

基于矩阵补全的集成学习提高微生物-疾病关联预测

学术背景与研究问题 微生物作为地球上最广泛存在的生命形式之一,与海洋、土壤以及人类自身均有密切关系。人体内约含有350万亿个微生物细胞(microbial cells),与人类健康、疾病的发生和发展息息相关。近年来,随着测序技术与生物信息学的快速进步,大量研究聚焦于阐明人体微生态(microbiome)组成及其功能对健康产生的影响。例如,肠道菌群组成的变化能够影响机体免疫和疾病发生,肝脏代谢也被证实受肠道微生物调控,会通过降低能量消耗、促进脂肪沉积等促进代谢疾病发展。 尽管实验生物医学对微生物-疾病(microbe-disease)关联的揭示已做出巨大努力,但已被实验确定的疾病相关微生物数量仍十分有限,传统实验方法既耗时又高成本,因此亟需高效、精准的计算方法,用于筛查潜在的微生物-疾病关联。...

基于单细胞多组学数据集的拷贝数变异推断工具基准测试

一、研究背景及意义 在肿瘤学和基因组研究领域,染色体拷贝数异常(Copy Number Alterations, CNAs)是导致癌症发生与进展的关键遗传变异类型。CNAs不仅决定了肿瘤的异质性,而且对早期肿瘤检测、肿瘤亚克隆(subclone)演化分析、耐药机制研究等具有重要意义。传统的检测拷贝数变异的方法主要依赖单细胞DNA测序(scDNA-seq),虽分辨率高,但受限于高昂成本及测序覆盖度低,难以在大规模、通量高的实际应用中广泛开展。 随着单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术的普及与数据积累,研究者发现,基于scRNA-seq数据在一定条件下也能够反推出潜在的基因组拷贝数变化,这大大拓展了利用已有转录组数据挖掘基因组结构变异...