通过统一多模态分子表征实现遗传到化学扰动的迁移学习

分享自：
通过统一多模态分子表征实现遗传到化学扰动的迁移学习

遗传学
细胞生物学
期刊:bioRxivDOI:10.1101/2025.02.02.635055
【点击此处】阅读全文、收藏及针对性提问
UniPert-G2CP：一种基于统一多模态分子表示的遗传-化学扰动迁移学习方法
一、 研究作者、机构与发表信息
本研究由来自中南大学的李明、曾敏，以及来自腾讯AI for Life Sciences Lab的刘林静、黄隆楷、王芳、朱俊、杨帆、姚剑华等研究人员共同完成。该研究以预印本形式于2025年2月2日首次发布在bioRxiv平台上（预印本标识符：10.1101⁄2025.02.02.635055）。需要指出的是，预印本意味着该研究尚未经过正式的同行评议。
二、 学术背景与研究目的
本研究隶属于人工智能驱动的生物医学研究与计算生物学交叉领域，核心目标是构建人工智能虚拟细胞，以模拟和预测细胞在受到不同干预后的动态状态。其中，系统性地建模遗传扰动和化学扰动（药物处理）后的细胞表型是这一愿景的关键。
当前，该领域面临几个主要瓶颈：首先，遗传筛选（如CRISPR）与化学筛选（药物库）在筛选试剂、文库规模、实验技术和数据产出效率上存在巨大差异，导致跨领域数据的整合与建模困难。其次，大生物分子（如蛋白质）和小分子（如化合物）在分子模态上存在本质区别，难以用统一、可解释的方式进行表征。最后，细胞具有高度异质性，而现有的扰动效应预测模型往往局限于已观测到的扰动分布，对于预测未见过的基因或化合物（即分布外预测）的泛化能力有限。
针对这些问题，本研究提出了一种创新的解决方案。其核心思想是：利用相对系统且成本较低的CRISPR遗传筛选数据来“指导”和“增强”对庞大化学空间的建模。具体而言，研究旨在开发一个两阶段深度学习框架：1）建立一个名为UniPert的统一多模态分子表示模型，将基因和药物编码到同一个功能可解释的语义嵌入空间中，从而弥合遗传与化学领域的鸿沟；2）在此基础上，构建一个名为G2CP的遗传到化学扰动迁移学习框架，通过“遗传预训练 + 化学微调”的策略，将基于CRISPR筛选的遗传学洞见系统性地转化为化学扰动模型，从而以更低的实验成本实现大规模计算机模拟药物筛选。
三、 详细研究流程与方法
本研究包含两个核心阶段，构成了一个完整的计算建模工作流。
第一阶段：开发UniPert统一分子表示模型
目标：为遗传扰动物（基因/蛋白质）和化学扰动物（小分子药物）学习一个共享的、功能可解释的语义嵌入空间。
研究流程： 1. 数据准备与输入： * 化学扰动物：输入为化合物的SMILES字符串。模型使用扩展连接性指纹进行初始子结构表征，生成稀疏特征向量，再通过全连接层转换为密集嵌入。 * 遗传扰动物：输入为目标基因对应的蛋白质氨基酸序列。模型整合了蛋白质语言模型和多序列比对信息。具体地，对于一个查询蛋白，首先使用Smith-Waterman算法与一个包含19,187个人类全基因组蛋白的参考集进行局部比对，构建一个以查询蛋白为中心的加权相似性图（节点为蛋白质，边为序列相似性权重）。 2. 模型编码器设计： * 蛋白质编码器：结合了ESM预训练模型和图神经网络。首先用ESM为所有节点（包括查询蛋白和参考蛋白）生成初始残基级嵌入，然后通过GNN在图结构上进行消息传递，使功能信息在相似序列间传播。这种混合策略旨在同时捕获全局上下文特征和局部保守基序模式。 * 化合物编码器：基于ECFP指纹的密集嵌入层。 3. 模型训练策略：采用双优化策略，在共享的潜在空间中建立模态内和模态间关系。 * 图自监督学习：用于增强蛋白质嵌入。通过对图进行随机丢弃边和节点特征的增广，生成两个变体，训练在线编码器和离线编码器，使同一节点在不同增广下的表示保持一致，从而学习到鲁棒的蛋白质表示。 * 对比学习对齐：用于桥接化合物和蛋白质。利用一个包含81,397对已验证的化合物-靶点相互作用数据，通过对比损失函数，将相互作用的化合物-靶点对在嵌入空间中拉近，同时推远无关的分子对，从而建立跨模态的功能关联。 4. 模型输出与应用：训练完成后，UniPert能够为任何给定的基因（通过其蛋白质序列）或化合物（通过其SMILES）生成一个统一的、富含生物学语义的嵌入向量。这些嵌入可用于下游任务，如分子注释、相似性计算和作为扰动预测模型的输入。
第二阶段：构建G2CP遗传到化学扰动迁移学习框架
目标：利用UniPert提供的统一分子表示，通过迁移学习，将大规模遗传筛选数据中学习到的细胞背景知识，迁移到化学扰动建模中，实现高效、低成本的计算机模拟药物筛选。
研究流程： 1. 框架设计：G2CP是一个两阶段迁移学习框架，其骨干网络可以是任何以扰动条件和表型谱为输入的扰动效应预测模型（本研究采用GEARS模型）。 2. 训练策略： * 遗传预训练阶段：使用特定细胞背景下的CRISPR基因敲除转录组数据（例如，约5,000个基因）对模型进行预训练。模型学习在给定细胞环境下，不同遗传扰动（由UniPert编码）如何导致特定的表型变化（如基因表达谱）。此阶段使模型掌握了系统的细胞遗传背景和针对不同通路的响应模式。 * 化学微调阶段：使用同一细胞背景下有限的化学扰动数据（例如，数百至数千个化合物）对预训练模型进行微调。模型利用UniPert将化合物编码到与基因相同的语义空间，从而将预训练阶段学到的扰动响应知识迁移到化学领域，学习化合物扰动动态。 3. 评估设置：为了验证G2CP的成本效益，研究设置了严格的评估方案。在多个数据集（如LINCS、CPJUMP1）上，将不同比例（20%， 40%， 60%， 80%）的化学扰动条件作为未见过的测试集。将G2CP（带遗传预训练）与基线模型（不带遗传预训练，仅用化学数据从头训练）进行比较，评估其预测未见化合物效应的性能。
四、 主要研究结果
1. UniPert生成功能可解释的分子嵌入，并助力未充分研究分子的注释： * 药物机制分类：在18个主要的作用机制类别中，UniPert生成的药物嵌入在13个类别上比传统ECFP指纹表现出更好的类内相似性与类间分离性。例如，对于“DNA抑制剂”和“GABAAR；阴离子通道PAM”等类别，ECFP未能捕获其共享的机制关系，而UniPert则能在语义空间中将其有效聚集。 * 蛋白质靶点药理学分类：在4,417个人类蛋白靶点的多层次药理学分类聚类任务中，UniPert显著优于ESM等基线方法，调整兰德指数和归一化互信息分别提升了76.3%和47.0%。它能更精细地区分酶、膜受体、表观遗传调节因子等大类及其子类。 * 蛋白质家族与相互作用识别：UniPert能够成功聚类锌指蛋白、驱动蛋白超家族等蛋白质家族，并能将未分类的蛋白质（如CENPE、FOXM1）定位到其功能相关的家族附近。此外，它能捕获PD-1/PD-L1复合物亚基之间的相互作用。 * 功能基序富集：在功能基序（如蛋白激酶ST motif）的富集分析中，UniPert比ESM和OntoProtein能更好地将具有相同保守基序的蛋白质聚集在嵌入空间中，显示出更强的基序级表征能力。
2. UniPert增强对未见过的单基因及多基因组合扰动的效应预测： * 单基因扰动：在Dixit等人的单基因扰动数据集上，将UniPert嵌入集成到GEARS框架中，在预测未见基因（如CEP55， AURKA， AURKB）扰动后的基因表达变化时，其皮尔逊相关系数等指标均优于原GEARS模型及其他蛋白质编码器（PseAAC， ESM， OntoProtein）。 * 双基因组合扰动：在Norman等人的组合基因扰动数据集上，UniPert在预测“两个基因在训练中均未见过”的扰动组合时表现最佳。例如，对于CBL和CNN1这个未见过的基因组合，UniPert预测的前20个差异表达基因的变化方向与真实观测值更为吻合。
3. UniPert改善对不同数据规模下未见药物处理的效应预测： * 大规模数据集：在sci-Plex3大规模药物筛选数据集上，UniPert集成到CPA框架中，在预测未见化合物（按通路分层留出）的细胞反应时，其性能（PCC， MSE）优于ChemCPA（使用ECFP）及其他先进分子表示模型（Uni-Mol， KPGT）。 * 小规模特异性数据集：在17个组蛋白去乙酰化酶抑制剂的小规模数据集上进行留一法评估，UniPert同样表现出对未见药物预测的优越性。其嵌入能有效捕获HDAC抑制剂的药理学区分度，并且结构分析表明，UniPert可能捕捉到了与已知药效团（如锌结合基团和帽区）相关的关键分子特征。
4. G2CP通过预学习遗传背景，实现高效计算机模拟高通量化学筛选： * 在转录组数据上的卓越表现：在涵盖5种癌细胞系的LINCS转录组数据集上，G2CP框架展现出显著优势。即使仅使用20%的化学数据进行微调，其预测性能（PCC）也超过了使用80%化学数据从头训练的模型。这意味着G2CP能将化学扰动建模所需的实验数据成本降低超过60%。特别是在化学扰动数据较少的细胞系（如A375， HT29）中，遗传预训练极大地弥补了数据不足的缺陷。 * 在形态学数据上的局限性：在CPJUMP1形态学数据集上，G2CP的改进有限。作者分析这可能源于该数据集本身扰动条件数量有限、形态学特征提取方法欠佳以及数据质量控制问题。
5. UniPert-G2CP模拟多细胞扰动因果表示空间，揭示药理学类别的细胞敏感性： * 构建统一的扰动物关联矩阵：利用UniPert为4，994个基因和7，821个化合物生成了统一的嵌入空间，并计算了所有扰动物对之间的余弦相似度。分析显示，化合物-化合物对的相似度分布较广，接近正态分布；基因-基因对的相似度分布较窄；而基因-化合物对的分布与化合物-化合物对相似但均值略低，表明UniPert成功将不同模态的扰动物映射到一个连贯的语义空间。 * 验证化合物-靶点相互作用预测能力：使用UniPert嵌入计算的基因-化合物相似度来预测已知的81，397对化合物-靶点相互作用，其受试者工作特征曲线下面积超过0.98，证明了该嵌入在基于相似性的靶点预测中的高效性和潜力。 * 跨细胞背景的异质性验证：在五个癌细胞系上分别训练了G2CP模型。交叉验证显示，每个模型在其对应的细胞系测试集上表现最佳，表明模型成功捕获了不同细胞背景下的扰动响应异质性。 * 量化药理学类别的细胞敏感性：通过联合分析扰动原因相似性矩阵（基于UniPert嵌入）和扰动效应连通性矩阵（基于G2CP预测的表型），研究量化了不同药理学类别在不同细胞系中的扰动敏感性。例如，雌激素受体激动剂在MCF7乳腺癌细胞中表现出最高的敏感性（斯皮尔曼相关系数ρ = 0.73），这与已知的生物学背景一致。这种分析揭示了药物效应不仅取决于其化学结构，还强烈受到细胞微环境的影响。
五、 研究结论与价值
本研究成功开发了UniPert-G2CP，这是第一个统一遗传和化学扰动建模的通用框架。其核心贡献在于从扰动原因（分子语义）和扰动效应（表型状态）两个层面实现了跨模态、跨领域、跨细胞背景的整合建模。
科学价值：
方法论创新：UniPert通过结合先进的序列建模技术和先验生物知识，首次实现了大生物分子与小分子在统一语义空间中的功能可解释表征，突破了传统方法在跨模态分子关联上的瓶颈。
计算范式革新：G2CP提出的“遗传预训练+化学微调”范式，为解决化学筛选数据稀疏性问题提供了高效的计算解决方案，为构建生物因果基础模型和AI虚拟细胞迈出了关键一步。
新洞察生成：通过构建大规模的扰动因果表示空间并进行联合分析，该框架能够系统性地量化药物在不同细胞环境中的敏感性差异，为理解药物作用的细胞特异性提供了新的计算工具和视角。
应用价值：
加速药物发现：将虚拟筛选从传统的、脱离细胞背景的分子对接方法，推向一个同时考虑分子关系和细胞背景效应的统一框架，能更真实地在计算机上对海量化合物的细胞反应进行早期筛选和优先级排序。
推动精准医学：通过模拟个体化遗传背景下的药物反应，该框架为计算机模拟临床试验和个性化治疗规划提供了可能。它有助于发现新的治疗适应症，并支持超越传统靶点中心策略的、基于机制信息的药物再利用。
六、 研究亮点
首创性框架：首次提出并实现了从遗传扰动到化学扰动的系统性迁移学习框架，为整合多领域扰动生物学数据树立了新范式。
统一的多模态分子表示：UniPert模型创新性地融合了蛋白质语言模型、多序列比对、图神经网络和对比学习，生成了兼具可扩展性、可解释性和功能丰富性的跨模态分子嵌入。
显著的效率提升：G2CP框架通过利用丰富的遗传筛选数据，将化学扰动建模所需的实验数据成本降低了60%以上，极大提升了计算机模拟药物筛选的效率和可行性。
深入的生物学洞见：研究不仅停留在预测性能的提升，更深入利用模型生成的因果表示空间，揭示了药理学类别在不同细胞环境中的敏感性差异，将计算模型与机制生物学理解紧密结合。
广泛的适用性：框架设计灵活，可适配不同的扰动效应预测模型（如GEARS， CPA），并有望扩展到更多组学层面（如蛋白质组学、表观基因组学）和图像表型数据。
七、 其他有价值的讨论
研究在讨论部分也坦诚地指出了当前框架的局限性，并展望了未来方向。例如，UniPert目前主要基于蛋白质序列编码遗传扰动，无法明确表示针对非编码区（如DNA调控元件、RNA）的扰动。未来可整合DNA语言模型（如Evo）、RNA语言模型等，以提供更精细、全面的遗传扰动表征。此外，随着更多组学层面和更高通量表型数据（如细胞成像）的积累，G2CP框架有望支持更全面的多组学细胞状态整合建模，进一步推动AI虚拟细胞和精准医疗的发展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问