基于深度学习的酶筛选工具DeepES在孤儿酶基因识别中的应用

学术背景 随着测序技术的飞速发展,科学家们已经能够获得大量的蛋白质序列数据,其中包括许多酶序列。然而,尽管像京都基因与基因组百科全书(KEGG)和BRENDA这样的大型酶数据库已经建立,许多酶的序列信息仍然缺失。这些缺乏序列信息的酶被称为“孤儿酶”(orphan enzymes)。孤儿酶的存在严重阻碍了基于序列相似性的功能注释,导致在理解序列与酶促反应之间关系时存在巨大空白。 孤儿酶的问题不仅限于序列信息的缺失,还影响了我们对生物过程的理解。例如,人类肠道微生物群中的许多代谢过程,如短链脂肪酸(short-chain fatty acid, SCFA)的生产,与肠道炎症和癌症进展密切相关。然而,许多这些反应涉及孤儿酶,导致相关基因无法被识别。因此,开发一种不依赖于序列相似性的方法来预测酶活性...

基于自校正多标签学习的质粒宿主范围预测模型

质粒(plasmid)是细菌中独立于染色体DNA的小型环状双链DNA分子,它们通过水平基因转移(horizontal gene transfer)帮助宿主细菌获得抗生素抗性、金属抗性等有益特性。一些质粒能够在多种微生物中转移、复制或持续存在,这类质粒被称为广宿主范围质粒(broad-host-range plasmids, BHR plasmids)。准确预测BHR质粒的宿主范围对于理解质粒如何促进细菌进化、传播抗性基因以及开发重组载体具有重要意义。然而,目前缺乏提供BHR质粒详细宿主范围标签的数据库,这使得基于机器学习模型的宿主范围预测面临挑战。由于缺乏足够的标注样本,模型难以提取有效的特征表示,导致预测精度受限。 为了解决这一问题,香港城市大学电气工程系的Wei Zou、Yongxin ...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...

单细胞拷贝数变异与事件历史重建的SCICONE模型

肿瘤的发展过程中,基因组拷贝数变异(Copy Number Alterations, CNAs)是驱动肿瘤异质性和进化的重要因素。理解这些变异对于开发个性化的癌症诊断和治疗方法至关重要。单细胞测序技术提供了最高分辨率的拷贝数分析,能够深入到单个细胞水平。然而,低读深(low read-depth)的全基因组测序数据给拷贝数变异的检测带来了巨大的统计和计算挑战。现有的计算方法大多忽略了细胞之间的进化关系,导致检测结果不够准确。因此,开发一种能够结合细胞进化历史的拷贝数检测方法成为当前研究的迫切需求。 论文来源 本论文由ETH Zurich(瑞士联邦理工学院)和SIB Swiss Institute of Bioinformatics(瑞士生物信息学研究所)的研究团队共同完成,主要作者包括Jac...

基于扭转流匹配的蛋白质侧链包装模型FlowPacker

蛋白质的三维结构由其氨基酸序列决定,而蛋白质的功能则高度依赖于其三维结构。蛋白质的侧链构象(side-chain conformations)在蛋白质折叠、蛋白质-蛋白质相互作用以及蛋白质设计(de novo protein design)中起着至关重要的作用。准确预测蛋白质侧链的构象是理解蛋白质折叠机制、设计新型蛋白质以及研究蛋白质相互作用的关键。然而,传统的基于物理的模型(physics-based modeling)依赖于经验评分函数(empirical scoring functions)、离散旋转库(discrete rotamer libraries)和马尔可夫链蒙特卡罗(MCMC)采样,这些方法往往由于搜索效率低下和评分函数的不准确性而难以达到理想的效果。 近年来,人工智能在蛋...