基于多密钥同态加密的基因组计算隐私保护框架

基因组分析的隐私保护框架:基于多密钥同态加密的研究 学术背景 随着基因组测序成本的降低,基因组数据的广泛可用性为个性化医疗(也称为基因组医学)开辟了新的可能性。然而,基因组数据包含大量敏感信息,如疾病易感性、祖先信息和身体特征,这些信息的隐私问题成为了医学研究和数据共享的重大障碍。尽管研究人员已经提出了多种隐私保护技术,但现有的基于密码学的方法在互操作性、可扩展性、隐私保护程度以及多方分析支持方面仍存在不足。这些局限性限制了基因组数据的潜力,阻碍了其在医学研究中的应用。因此,开发一种既能保护隐私又能支持多方基因组数据处理的加密技术成为了迫切需求。 论文来源 这篇论文由Mina Namazi、Mohammadali Farahpoor、Erman Ayday和Fernando Pérez-Go...

EpicPred——基于注意力机制的多实例学习预测表位驱动的T细胞受体表型

T细胞受体(TCR)在适应性免疫系统中起着至关重要的作用,它们通过与特定抗原表位(epitope)结合来识别病原体。理解TCR与表位之间的相互作用对于揭示免疫反应的生物学机制以及开发T细胞介导的免疫疗法具有重要意义。然而,尽管TCR的CDR3区域在表位识别中的重要性已被广泛认可,但如何准确预测与特定疾病或表型相关的TCR-表位相互作用仍是一个挑战。为此,研究人员开发了EpicPred,一种基于注意力机制的多实例学习(Multiple Instance Learning, MIL)模型,旨在预测与癌症或COVID-19患者严重程度相关的TCR-表位相互作用。 论文来源 该论文由Jaemin Jeon、Suwan Yu、Sangam Lee、Sang Cheol Kim、Hye-Yeong Jo...

基于深度学习的酶筛选工具DeepES在孤儿酶基因识别中的应用

学术背景 随着测序技术的飞速发展,科学家们已经能够获得大量的蛋白质序列数据,其中包括许多酶序列。然而,尽管像京都基因与基因组百科全书(KEGG)和BRENDA这样的大型酶数据库已经建立,许多酶的序列信息仍然缺失。这些缺乏序列信息的酶被称为“孤儿酶”(orphan enzymes)。孤儿酶的存在严重阻碍了基于序列相似性的功能注释,导致在理解序列与酶促反应之间关系时存在巨大空白。 孤儿酶的问题不仅限于序列信息的缺失,还影响了我们对生物过程的理解。例如,人类肠道微生物群中的许多代谢过程,如短链脂肪酸(short-chain fatty acid, SCFA)的生产,与肠道炎症和癌症进展密切相关。然而,许多这些反应涉及孤儿酶,导致相关基因无法被识别。因此,开发一种不依赖于序列相似性的方法来预测酶活性...

基于自校正多标签学习的质粒宿主范围预测模型

质粒(plasmid)是细菌中独立于染色体DNA的小型环状双链DNA分子,它们通过水平基因转移(horizontal gene transfer)帮助宿主细菌获得抗生素抗性、金属抗性等有益特性。一些质粒能够在多种微生物中转移、复制或持续存在,这类质粒被称为广宿主范围质粒(broad-host-range plasmids, BHR plasmids)。准确预测BHR质粒的宿主范围对于理解质粒如何促进细菌进化、传播抗性基因以及开发重组载体具有重要意义。然而,目前缺乏提供BHR质粒详细宿主范围标签的数据库,这使得基于机器学习模型的宿主范围预测面临挑战。由于缺乏足够的标注样本,模型难以提取有效的特征表示,导致预测精度受限。 为了解决这一问题,香港城市大学电气工程系的Wei Zou、Yongxin ...

基于Transformer模型的DNA序列比对方法研究

学术背景 DNA序列比对是基因组学中的一项核心任务,旨在将短DNA片段(reads)定位到参考基因组上的最可能位置。传统方法通常分为两个步骤:首先对基因组进行索引,然后通过高效搜索定位reads的可能位置。然而,随着基因组数据的爆炸式增长,尤其是面对长达数十亿碱基的参考基因组时,传统的比对方法在计算效率和准确性上面临巨大挑战。近年来,Transformer模型在自然语言处理(NLP)领域的成功启发了研究人员将其应用于DNA序列分析。尽管已有研究表明Transformer模型在短DNA序列分类任务中表现优异,但序列比对任务需要在整个基因组范围内进行搜索,这对模型的全局搜索能力提出了更高要求。 为此,本研究提出了一种名为“embed-search-align”(ESA)的新框架,旨在通过Tran...