复杂性状因果基因集合的生成式预测方法

利用生成式深度学习预测复杂性状的致因基因集:PNAS重磅新方法解读 一、学术背景与研究动机 复杂性状的困境 基因型与表型关系一直是生物学和遗传学领域最核心的问题之一。尤其在生物体级别的复杂性状(complex traits)研究中,这一问题尤为突出。所谓复杂性状,指的是表型受多基因(或多个基因位点,loci)协同作用调控,如常见的哮喘、炎症性肠病、糖尿病、癌症转移等。这些性状通常受遗传背景、表观遗传、环境因素等多重因素影响,使得从基因型预测表型变得异常困难。 现代遗传学研究主要依赖于全基因组关联研究(GWAS, genome-wide association studies)或转录组关联研究(TWAS, transcriptome-wide association studies)等关联分析...

氨基酸主链构象对同义密码子的翻译依赖性并不显著

同义密码子对蛋白质主链构象影响的再评估 —— 一项严格统计检验下的结构生物学范式辩证 一、学术背景与研究动因 在分子生物学和结构生物学的领域,密码子(codon)与蛋白质结构之间的关系一直是研究关注的热点。传统观念认为,蛋白质的一级结构(即氨基酸序列)决定其空间构象(折叠),而遗传密码的“简并性”允许同一种氨基酸由多个“同义密码子(synonymous codons)”编码。从20世纪末开始,越来越多的文献证实,同义密码子的使用偏好与诸多生物学过程密切相关,如mRNA剪接、翻译速率调控及蛋白质折叠动力学等。这些联系不仅丰富了我们对分子生物学中的“非编码信息”的理解,也对蛋白质设计和基因工程提出了更多维度的理论基础。 2022年,一项由A. A. Rosenberg等人发表于Nature Co...

PlantCaduceus:利用预训练DNA语言模型实现单碱基分辨率植物基因组跨物种建模

植物基因组跨物种建模的里程碑:PlantCaduceus DNA语言模型的创建与突破性应用 一、学术背景与研究动因 在过去二十年里,伴随高通量测序技术的飞速发展,超过1000种植物基因组已经发表,预计未来这一数字还将持续激增。然而,对这些庞大基因组的功能元素进行注释、理解它们在转录和翻译层面的表达调控,以及分析不同遗传变异对于生物个体适应性和性状的影响,一直是植物基因组学乃至作物改良领域中亟需突破的“瓶颈”问题。 相较于动物和人类,植物基因组拥有更复杂的结构,表现为基因组大小巨大、重复序列比例极高、物种间多样性极强,甚至同属同种内部亦具有极大变异。因此,基于单一物种构建的深度学习(deep learning,DL)模型,往往只在特定物种内表现良好,难以跨物种泛化。这极大限制了新测序植物(尤其...

面向偏差感知的网络生物学链路预测算法的训练与评估

揭示连边预测算法的“富节点”偏见及其应对新策略 —— 解读“Bias-aware Training and Evaluation of Link Prediction Algorithms in Network Biology” 一、学术背景与研究缘起 在过去的十年里,生物网络(network biology)在揭示生物分子关联与功能方面扮演着愈加重要的角色。随着蛋白-蛋白互作(protein–protein interaction, PPI)、疾病基因关系等大规模图谱数据不断丰富,基于图机器学习的连边预测(link prediction, 连边意指网络中节点之间的关联)成为生物信息学和计算生物学中的核心工具。连边预测算法被广泛用于发现未知的生物分子关联,有助于药物靶点发现、疾病机制研究、实...

健康寿命蛋白质组特征的开发与验证

一、学术背景:从寿命延长到健康寿命的增进 随着20世纪以来全球医疗和社会经济水平的提高,人类整体寿命(Lifespan)显著延长,尤其是在发展中国家。然而,健康寿命(Healthspan)——即个体在无重大慢性疾病和功能障碍、保持全面健康状态下生活的年限——却未能与寿命同步增长。这在全球范围内造成了“健康寿命缺口”(healthspan-lifespan gap),使越来越多的人口虽然生命得以延长,但晚年多伴随慢性疾病、残疾和功能丧失,造成巨大社会、经济和医疗负担。 面对这一挑战,抗衰老生物学领域出现了“老年医学科学”(Geroscience)研究范式。与以往仅聚焦单一疾病的防治不同,Geroscience强调同时针对影响衰老进程的核心生物学机制(如炎症、免疫失衡、代谢异常、细胞功能障碍等“...