分享自:

Squidiff:利用扩散模型预测细胞发育和对外界扰动的反应

期刊:nature methodsDOI:10.1038/s41592-025-02877-y

关于Squidiff:一种基于扩散模型的单细胞转录组学预测框架的学术研究报告

第一, 研究的主要作者、机构及发表信息

本研究由一支来自哥伦比亚大学(Columbia University)和斯坦福大学(Stanford University)等多个顶尖机构的跨学科团队共同完成。第一作者及共同第一作者为何思宇(Siyu He)、朱跃飞(Yuefei Zhu)和Daniel Naveed Tavakol。通讯作者为James Zou(斯坦福大学)、Elham Azizi和Kam W. Leong(均为哥伦比亚大学)。该研究成果以长文(Article)形式发表于国际顶级学术期刊《自然-方法》(*Nature Methods*),于2025年11月3日在线发布,并被收录于2026年1月出版的期刊第23卷第65-77页。

第二, 研究的学术背景:领域、动因、背景知识与目标

本研究的核心科学领域是计算生物学单细胞基因组学的交叉,具体聚焦于利用人工智能(AI),特别是生成式模型,来预测细胞在动态变化中的转录组状态。

背景知识与研究动因:单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术革命性地揭示了细胞的异质性及其对环境刺激的响应。然而,科学界仍面临两大挑战:其一,预测多种细胞类型在多样化刺激(如分化信号、基因扰动、药物处理、物理辐照)下的转录组动态变化仍极为困难;其二,阐明这些变化背后的疾病机制需要大规模、多时间点的测序筛选,这既费时耗力又成本高昂。虽然已有一些基于变分自编码器(VAE)、最优运输、图神经网络等机器学习模型(如scGen、GEARS等)被开发用于预测细胞扰动,但它们普遍存在局限性,例如难以预测高分辨率的动态转录响应(尤其是器官发育中的瞬时状态),以及模型通常局限于特定任务、需要同时输入扰动前后数据,未能充分利用潜在的生物学知识来实现细胞状态的平滑插值。

研究目标:为了克服上述挑战,本研究旨在开发一个通用的、生成式的计算框架,能够准确预测多种细胞类型在各类环境变化下的转录组学响应。该框架的核心目标是:1. 捕捉细胞分化、发育过程中的瞬时状态;2. 预测基因扰动(包括非加性效应)和药物反应的细胞类型特异性影响;3. 实现对物理刺激(如辐射)响应的建模;4. 为在计算机(*in silico*)中进行分子景观筛选和细胞状态转换模拟提供强大工具,从而加速科学假设生成和对细胞命运决定调控原理的理解。

第三, 详细的研究流程与方法

本研究是一个计算方法开发与多场景生物医学应用验证相结合的工作,主要流程可分为模型构建多场景验证两大部分。

流程一:Squidiff模型的设计与构建 本研究提出了名为Squidiff(Single-cell Quantitative Inference of stimulus responses by a DIFFusion model)的模型。它是一个基于条件去噪扩散隐式模型(conditional Denoising Diffusion Implicit Model, DDIM) 的生成框架,并结合了一个语义编码器(semantic encoder)。 1. 模型架构: * 语义编码器:一个多层感知机(MLP),负责将单细胞转录组数据(x0)映射到一个语义潜变量空间(z_sem)。z_sem旨在捕获具有生物学意义的变异,例如细胞类型、分化阶段或刺激条件。 * 扩散过程:这是一个前向过程,通过多达1000个步骤,逐步向原始数据x0添加高斯噪声,最终将其转化为纯高斯噪声(x_t)。 * 条件去噪过程(反向扩散):这是一个逆向过程,由一个以z_sem和扩散时间步t为条件的神经网络(ε_θ)驱动。该网络学习从噪声x_t中去除噪声,并重建出符合特定语义条件(由z_sem定义)的转录组数据。 * 工作原理:训练完成后,要生成新的转录组数据(如对某种刺激的响应),只需计算该刺激对应的语义潜变量方向(δz_sem,例如处理组与对照组的z_sem均值之差),然后将其与起始细胞状态的z_sem相加或进行插值,再输入到训练好的去噪模型中,即可生成目标状态的预测转录组。

  1. 数据预处理与质量控制:对所有使用的真实scRNA-seq数据,研究团队进行了标准化的质量控制,包括过滤低质量细胞(表达基因数过少、线粒体基因比例过高)、移除潜在的多重体、排除核糖体和线粒体基因。数据经过标准化和log转换后,选取高变异基因用于模型训练。

  2. 新颖性:Squidiff的核心新颖性在于将扩散模型的强大生成能力与语义潜变量的可解释性操作相结合。它不需要像图神经网络那样依赖先验知识图谱,而是通过从数据中学习到的潜空间向量来直接编码和操作生物扰动信息。此外,为了预测训练集中未出现的新药物,研究还集成了一个药物化合物适配器,该适配器受到PRNet模型启发,能够将药物的SMILES结构信息(通过重缩放功能类指纹,RFCFP编码)整合到语义潜变量中,从而扩展模型的泛化能力。

流程二:在多维生物医学场景下的验证与应用 研究团队在多个具有挑战性的真实数据集上系统地验证了Squidiff的性能。

  1. 验证场景一:预测细胞分化(以iPSC向内胚层分化为例)

    • 研究对象与样本量:使用一个已公开的人诱导多能干细胞(iPSC)分化数据集。训练数据仅包含分化第0天(iPSC状态)和第3天(定型内胚层状态) 的转录组数据,共约2400个细胞。测试数据为第1天和第2天的数据,同样约2400个细胞。
    • 处理与实验:无需进行新的湿实验,完全基于已有数据进行计算验证。模型训练后,计算从第0天到第3天的平均刺激方向向量(δz_sem)。然后,通过在该向量方向上进行线性插值,生成预测的第1天和第2天细胞状态。
    • 数据分析流程:通过计算预测数据与真实数据之间的皮尔逊相关系数(Pearson correlation)和决定系数(R²)来评估预测准确性。进行差异基因表达分析、伪时间分析(pseudotime analysis),并使用轨迹推断方法(如PAGA、Monocle、SCORPIUS)验证预测状态是否构成连续的发育轨迹。
  2. 验证场景二:预测基因与药物扰动

    • 基因扰动(以K562细胞中ZBTB25和PTPN12的非加性扰动为例)
      • 对象:K562细胞系。
      • 处理:训练数据包含对照、单基因ZBTB25扰动、单基因PTPN12扰动的数据。测试数据为双基因(ZBTB25+PTPN12)扰动的数据。
      • 方法:模型分别学习两个单基因扰动的语义向量(δz_ZBTB25, δz_PTPN12)。预测双基因扰动时,将两个向量相加后作用于对照细胞的z_sem。
      • 分析:比较预测的双基因扰动转录组与真实数据的相关性,并与现有方法(如GEARS, scGen)进行性能对比。
    • 药物扰动(以胶质母细胞瘤细胞对不同药物的反应为例)
      • 对象:胶质母细胞瘤数据集中的肿瘤细胞、髓系细胞和少突胶质细胞。
      • 处理:训练数据中,髓系细胞暴露于六种不同药物(如依托泊苷、帕比司他等),而肿瘤细胞和少突胶质细胞仅接触过依托泊苷。测试任务是预测后两种细胞对所有六种药物的反应。
      • 方法:模型学习不同药物在不同细胞类型中诱导的语义向量。
      • 分析:评估预测的药物反应谱与真实数据的匹配程度,并通过差异基因分析识别出帕比司他对肿瘤细胞的特异性强效作用,与已有文献印证。
  3. 验证场景三:预测类器官发育与物理/药物干预——核心应用案例

    • 研究对象人iPSC来源的血管类器官(Blood Vessel Organoids, BVOs)。这是一个复杂的3D生物模拟系统,包含内皮细胞、壁细胞(mural cells)和成纤维细胞。
    • 处理与实验
      • 发育预测:训练数据仅为iPSC(第-1天)和发育第11天的BVO scRNA-seq数据。模型被用来插值预测从第1天到第17天(间隔2天)的连续细胞状态。
      • 辐照损伤预测:在第5天,对BVO进行中子辐照(4 Gy)。在第11天获取辐照组和对照组的scRNA-seq数据。在训练中,故意屏蔽了辐照后的壁细胞和成纤维细胞数据,仅使用内皮细胞数据。训练后,模型被要求预测辐照对所有细胞类型(包括被屏蔽的)从早期到晚期的影响。
      • 药物保护预测:使用FDA批准的放射保护药物粒细胞集落刺激因子(G-CSF) 处理辐照后的BVO。训练数据仅提供G-CSF处理后的内皮细胞数据。模型被要求预测G-CSF对壁细胞和成纤维细胞的保护性转录组影响。
    • 数据分析:通过UMAP可视化观察预测的发育轨迹和辐照引起的细胞状态偏移。进行差异基因表达分析、基因本体(GO)富集分析,以揭示关键的受影响通路(如p53通路、NF-κB通路、细胞凋亡等)。同时,通过活死细胞染色、酶联免疫吸附试验(ELISA)检测炎症因子(IL-1β, TNF)、以及免疫荧光成像观察血管结构破坏,对计算预测的关键发现(如细胞死亡增加、炎症反应增强、血管形态异常)进行了湿实验验证

第四, 研究的主要结果

本研究在各个验证场景中均获得了显著且具有生物学意义的结果。

结果一:成功预测细胞分化动态。 Squidiff仅使用起始和终点数据,就高精度地预测了iPSC向内胚层分化过程中第1天和第2天的中间状态(预测与真实数据的皮尔逊相关系数高达0.85-0.99)。伪时间分析显示,预测的状态与真实时间点高度吻合,关键基因(如多能性标志物NANOG下降,中内胚层标志物GATA6和T上升)的表达动态被准确捕捉。轨迹推断方法在预测数据上重建的连续轨迹与真实离散时间点高度一致,且识别出的差异基因与真实时间点定义的基因集有显著重叠。性能对比显示,Squidiff在预测准确性上显著优于此前的主流方法scGen。

结果二:精准预测非加性基因扰动和细胞类型特异性药物反应。 在预测ZBTB25和PTPN12的双基因非加性扰动时,Squidiff在无需任何基因相互作用先验知识的情况下,取得了与依赖图先验的GEARS模型相媲美甚至更优的预测精度(R²=0.92)。在药物预测任务中,Squidiff成功预测了训练中从未接触过帕比司他等药物的肿瘤细胞和少突胶质细胞对这些药物的特异性反应谱,并准确识别出帕比司他对肿瘤细胞的独特强效作用。在整合药物结构适配器后,Squidiff在预测完全未知的新化合物时,其性能与专门设计的新药预测模型PRNet相当或更优。

结果三:揭示了血管类器官的发育轨迹并预测了辐照损伤与药物保护机制。 这是本研究最核心的应用成果。 1. 发育轨迹:Squidiff成功预测了从iPSC到成熟BVO的连续发育过程。预测数据显示,在发育中期(第5-9天),存在一个同时具有内皮细胞和壁细胞特征的“壁细胞祖细胞”群体,这暗示了壁细胞向内皮细胞分化的潜能,与近期发表的BVO时间序列研究结论完全一致,而scGen等方法未能捕捉到这一关键瞬时状态。 2. 辐照损伤:模型在仅使用辐照内皮细胞数据训练的情况下,成功生成了辐照对壁细胞和成纤维细胞影响的预测数据,且与真实测序数据高度相关(皮尔逊r>0.96)。分析发现,辐照对发育早期细胞影响最大。鉴定出一系列辐照响应关键基因,如上调的CDKN1A (p21)、MDM2、GDF15,下调的TOP2A、HMGB2等。通路富集分析表明,辐照激活了p53介导的DNA损伤反应、细胞凋亡、NF-κB炎症通路和AKT信号。这些计算预测得到了湿实验的有力支持:辐照后BVO细胞死亡比例显著增加,培养上清中炎症因子IL-1β和TNF水平升高,血管网络结构遭到破坏、出现异常出芽。 3. 药物保护:在仅提供G-CSF处理的内皮细胞数据后,Squidiff准确预测了G-CSF对辐照壁细胞和成纤维细胞的转录组保护效应。差异基因分析揭示了三类细胞在G-CSF处理下不同的生物学过程:成纤维细胞富集于血管生成和形态发生相关通路;内皮细胞富集于调节凋亡和细胞周期的通路;壁细胞则与基因组稳定性和有丝分裂相关。这表明G-CSF可能通过促进血管谱系分化、抑制凋亡和维持基因组稳定性来发挥多细胞协同的保护作用。实验证实,G-CSF处理组的细胞死亡比例低于单纯辐照组。

这些结果层层递进,从合成数据到简单生物学系统,再到复杂的类器官模型,逐步证明了Squidiff框架的稳健性(robustness)高分辨率预测能力强大的生物学洞察力。模型预测的结果不仅与已有数据或知识吻合,更能揭示新的生物学现象(如瞬时状态),并指导后续的实验验证,形成了“计算预测-实验验证”的完整闭环。

第五, 研究的结论与价值

本研究的核心结论是:Squidiff是一个强大且通用的计算框架,能够基于单时间点的单细胞转录组数据,准确预测多种细胞类型在分化、发育、基因扰动、药物处理及物理刺激下的动态转录组响应和细胞状态转换。

科学价值: 1. 方法论创新:将条件扩散模型与语义潜空间操作相结合,为单细胞基因组学中的生成式建模和扰动预测设立了新标杆。它解决了现有模型在捕捉动态瞬时状态和跨场景泛化方面的关键瓶颈。 2. 理论洞察:通过成功预测BVO中壁细胞向内皮细胞分化的潜在路径,以及解析辐照损伤和G-CSF保护的多细胞协同分子机制,Squidiff为理解细胞命运决定的调控原则组织在应激下的系统响应提供了前所未有的计算工具和深刻见解。 3. 推动“虚拟细胞”构建:该研究是迈向构建能够模拟细胞对环境变化响应的“虚拟细胞”的重要一步,为在计算机中进行大规模的、低成本的高通量筛选和机制探索奠定了基础。

应用价值: 1. 药物发现与优化:能够快速在计算机中筛选药物组合、预测细胞类型特异性副作用、探索全新化合物的作用机制,极大加速药物研发流程。 2. 疾病机制研究:为模拟疾病发生发展过程、解析复杂病因(如辐射损伤、发育异常)提供了强大的*in silico*模型。 3. 再生医学与毒理学:可用于预测干细胞分化轨迹、优化组织工程方案,以及评估环境毒素或治疗手段(如放疗)对特定细胞类型的影响。 4. 空间医学:本研究针对中子辐照和G-CSF的研究,直接为深空任务中宇航员面临的辐射血管病风险提供了机制理解和潜在的对策评估方案。

第六, 研究的亮点

  1. 模型设计的创新性与通用性:Squidiff是首个将条件扩散模型系统性地应用于单细胞扰动响应预测的框架。其“语义编码+条件生成”的设计使其能够统一处理分化、基因编辑、药物处理、物理辐照等多种刺激,展现出卓越的通用性。
  2. 高分辨率动态预测能力:能够精准预测和插值细胞分化或发育过程中的瞬时中间状态,这是许多先前模型难以实现的,为研究动态生物学过程提供了关键工具。
  3. 卓越的跨任务与跨细胞类型泛化能力:在“部分信息”设定下(如仅用部分细胞类型或部分药物的数据训练),模型能成功预测未见细胞类型对未见刺激的反应,体现了强大的知识迁移和推理能力。
  4. 严谨的“干湿结合”验证循环:研究不仅停留在计算验证,更以复杂的血管类器官为模型,对预测的辐照损伤关键通路(细胞死亡、炎症)和结构破坏进行了扎实的湿实验验证,并将预测的药物保护效应拓展到新的细胞类型,形成了完整、可信的科学论证链条。
  5. 解决重要实际问题:将前沿AI方法应用于中子辐照损伤和放射保护药物评估这一具有现实意义(如空间辐射防护)且实验难度大的问题,彰显了其转化应用潜力。

第七, 其他有价值的内容

文章也客观地讨论了Squidiff的当前局限性,主要包括:扩散模型训练过程较长,计算资源需求高于VAE等生成模型;当前语义变量的线性操作假设在极端复杂场景下可能仅为近似;以及未来需要进一步利用体内模型进行验证以增强其转化潜力。同时,作者展望了未来的发展方向,如提升模型的可扩展性和计算效率以处理更大规模数据、整合多组学数据(蛋白组、表观组、空间信息)以构建更全面的预测模型,这为后续研究指明了清晰的路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com