大型语言模型生成具有功能性的多样蛋白质序列

分享自：
大型语言模型生成具有功能性的多样蛋白质序列

信息科学
遗传学
期刊:Nature BiotechnologyDOI:10.1038/s41587-022-01618-2
【点击此处】阅读全文、收藏及针对性提问
研究报告：基于深度学习语言模型的人工蛋白生成研究第一部分：研究作者、机构及发表信息该研究的主要作者包括Ali Madani、Ben Krause、Eric R. Greene、Subu Subramanian等人，分别来自Salesforce Research、Profluent Bio、加州大学旧金山分校、加州大学伯克利分校以及其他相关机构。该研究发表在期刊《Nature Biotechnology》的第41卷（2023年8月刊）上，文章的DOI编号为10.1038/s41587-022-01618-2。
第二部分：研究背景本研究属于计算生物学和蛋白质工程领域，特别是在生物技术中深度学习模型的应用。传统蛋白质工程方法中，通过迭代突变筛选或基于结构的设计，来优化蛋白功能，这种过程存在着耗时长、效率低、依赖实验数据等问题。而近年来，语言模型在自然语言生成任务上的成功，为蛋白质序列生成提供了新的解决思路。研究团队开发了一种称为ProGen的语言模型，用于生成具有功能性的新型人工蛋白质序列。
研究的学术背景包括： 1. 蛋白质工程传统策略的局限性，结构建模和共进化方法的不足； 2. 深度学习在蛋白质科学中崭露头角的潜力，包括生成性和鉴别性模型； 3. 公共蛋白数据库中海量的数据规模、扩展性和相对较少的标注，为生成性模型提供了前所未有的机会。
研究的目标旨在开发一种可生成多种功能性蛋白序列的语言模型，并通过实验验证这些人工生成的蛋白是否具有相当的生物功能和活性，与自然蛋白质相比较，由此推动蛋白质设计的效率和精度。
第三部分：研究方法与流程本研究的工作流程分为以下几部分：
1. 数据集构建与模型训练研究团队使用了包含2800万个非冗余蛋白序列的大规模数据库，涵盖了超过19000个Pfam蛋白家族，这些序列数据来自UniParc、UniProtKB、Pfam等公共资源。蛋白序列经过标准化处理，并附加了控制标签（control tags），这些标签定义了蛋白家族、生物过程和分子功能等属性。
ProGen模型基于Transformer架构，有36层网络，包含12亿个参数。通过条件语言建模（conditional language modeling），模型学习了高维语义空间中的序列分布规律。在模型训练过程中，研究采用无监督的方式对整个数据集进行训练，使用大规模TPU设备进行分布式计算。
2. 模型细化与生成过程在初步训练后，研究团队针对Pfam数据库中的五个溶菌酶家族（包括Phage Lysozyme和Pesticin等）进行了细化训练。训练过程中采用了对齐（alignment）技术，并结合控制标签，为每个蛋白家族生成特定的序列样本。研究团队生成了多达一百万个人工蛋白序列，并通过随机采样方法控制生成序列的分布和变异度。
3. 实验验证研究团队从生成的一百万条序列中精心挑选了100条序列，并与自然蛋白进行实验对比。实验涉及以下环节： - 基因合成与蛋白表达：通过细胞自由系统和大肠杆菌中进行了蛋白表达和纯化； - 活性筛选：使用荧光标记的微球菌细胞壁检测溶菌酶的活性； - 催化效率测定：通过测定Michaelis-Menten常数（Km和kcat）来评估蛋白的酶促效率； - 晶体结构解析：对功能性蛋白进行结晶，利用X射线晶体学验证其结构一致性。
4. 与现有方法的对比研究还对传统基于共进化的蛋白生成方法（例如bmdca模型）进行了对比测试，重点考察不同方法在生成多样性、功能性和表达水平方面的优劣。
第四部分：研究结果1. 数据驱动优化性能ProGen生成的蛋白序列展现了跨家族的多样性和完整性。虽然这些序列的最大序列相似度（max identity）可能低至31.4%，但它们在功能一致性（residue conservation）上接近于自然蛋白。
2. 表达水平与功能性实验结果显示，人工蛋白的表达效率与自然蛋白高度一致。其中，有73%的人工溶菌酶活性超过了对照组1标准差以上。催化活性方面，两个人工溶菌酶（L056和L070）的催化效率与自然溶菌酶（HEWL）处于同一数量级。
3. 结构验证对人工蛋白L056的晶体结构解析发现，其整体折叠与自然溶菌酶一致，RMSD仅为2.9埃，展示了深度学习模型对蛋白质结构规律的捕获能力。
4. 在“边界区”生成的潜力研究选择了一些更低相似度（低于40%）的蛋白序列进行测试，结果显示其中31%的低相似度序列仍保持溶菌酶活性，尽管性能相对较低。
5. 超越特定家族的生成能力研究进一步验证了ProGen对其他蛋白家族（如Chorismate Mutase和Malate Dehydrogenase）的适应性，生成的序列在功能预测上的表现超过传统方法，展现了普适性。
第五部分：研究结论、价值与意义研究证明，基于Transformer的条件语言模型可以生成多功能人工蛋白，这些蛋白在功能性、稳定性和多样性上与自然蛋白匹敌，甚至可能超越自然进化所能达到的序列空间。这项研究拓展了蛋白质生成和优化的边界，提供了一种高效精准的工具，可应用于生物医学、药物开发及环境科学等多个领域。
通过结合深度学习与实验验证，这项工作为蛋白质设计的去新领域（de novo protein design）开启了新的篇章。尤其值得强调的是，人工设计的蛋白展现了与自然序列显著偏离但功能保留的可能性，证明了其生成模式的灵活性和鲁棒性。
第六部分：研究亮点新型模型设计：基于语言模型的条件生成，结合控制标签，实现了跨蛋白家族的通用生成能力。
高效蛋白生成：大规模并行处理，在短时间内生成了一百万条序列，是传统方法的突破。
实验验证：从结构、生化活性等多方面对人工蛋白验证，证实其接近或达到自然蛋白效率。
普适性：ProGen不仅对溶菌酶适用，还能扩展到其他酶类。
第七部分：补充内容研究团队也指出，尽管ProGen在细化训练后表现出色，但完全无细化情况下的生成质量仍有提升空间。此外，随着更多公共数据的涌现及控制标签的多样性增强，类似的模型有可能进一步推动新型功能蛋白的设计，加速科学发现和工业应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问