关于Squidiff:一种基于扩散模型的单细胞转录组学预测框架的学术研究报告
第一, 研究的主要作者、机构及发表信息
本研究由一支来自哥伦比亚大学(Columbia University)和斯坦福大学(Stanford University)等多个顶尖机构的跨学科团队共同完成。第一作者及共同第一作者为何思宇(Siyu He)、朱跃飞(Yuefei Zhu)和Daniel Naveed Tavakol。通讯作者为James Zou(斯坦福大学)、Elham Azizi和Kam W. Leong(均为哥伦比亚大学)。该研究成果以长文(Article)形式发表于国际顶级学术期刊《自然-方法》(*Nature Methods*),于2025年11月3日在线发布,并被收录于2026年1月出版的期刊第23卷第65-77页。
第二, 研究的学术背景:领域、动因、背景知识与目标
本研究的核心科学领域是计算生物学与单细胞基因组学的交叉,具体聚焦于利用人工智能(AI),特别是生成式模型,来预测细胞在动态变化中的转录组状态。
背景知识与研究动因:单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术革命性地揭示了细胞的异质性及其对环境刺激的响应。然而,科学界仍面临两大挑战:其一,预测多种细胞类型在多样化刺激(如分化信号、基因扰动、药物处理、物理辐照)下的转录组动态变化仍极为困难;其二,阐明这些变化背后的疾病机制需要大规模、多时间点的测序筛选,这既费时耗力又成本高昂。虽然已有一些基于变分自编码器(VAE)、最优运输、图神经网络等机器学习模型(如scGen、GEARS等)被开发用于预测细胞扰动,但它们普遍存在局限性,例如难以预测高分辨率的动态转录响应(尤其是器官发育中的瞬时状态),以及模型通常局限于特定任务、需要同时输入扰动前后数据,未能充分利用潜在的生物学知识来实现细胞状态的平滑插值。
研究目标:为了克服上述挑战,本研究旨在开发一个通用的、生成式的计算框架,能够准确预测多种细胞类型在各类环境变化下的转录组学响应。该框架的核心目标是:1. 捕捉细胞分化、发育过程中的瞬时状态;2. 预测基因扰动(包括非加性效应)和药物反应的细胞类型特异性影响;3. 实现对物理刺激(如辐射)响应的建模;4. 为在计算机(*in silico*)中进行分子景观筛选和细胞状态转换模拟提供强大工具,从而加速科学假设生成和对细胞命运决定调控原理的理解。
第三, 详细的研究流程与方法
本研究是一个计算方法开发与多场景生物医学应用验证相结合的工作,主要流程可分为模型构建与多场景验证两大部分。
流程一:Squidiff模型的设计与构建 本研究提出了名为Squidiff(Single-cell Quantitative Inference of stimulus responses by a DIFFusion model)的模型。它是一个基于条件去噪扩散隐式模型(conditional Denoising Diffusion Implicit Model, DDIM) 的生成框架,并结合了一个语义编码器(semantic encoder)。 1. 模型架构: * 语义编码器:一个多层感知机(MLP),负责将单细胞转录组数据(x0)映射到一个语义潜变量空间(z_sem)。z_sem旨在捕获具有生物学意义的变异,例如细胞类型、分化阶段或刺激条件。 * 扩散过程:这是一个前向过程,通过多达1000个步骤,逐步向原始数据x0添加高斯噪声,最终将其转化为纯高斯噪声(x_t)。 * 条件去噪过程(反向扩散):这是一个逆向过程,由一个以z_sem和扩散时间步t为条件的神经网络(ε_θ)驱动。该网络学习从噪声x_t中去除噪声,并重建出符合特定语义条件(由z_sem定义)的转录组数据。 * 工作原理:训练完成后,要生成新的转录组数据(如对某种刺激的响应),只需计算该刺激对应的语义潜变量方向(δz_sem,例如处理组与对照组的z_sem均值之差),然后将其与起始细胞状态的z_sem相加或进行插值,再输入到训练好的去噪模型中,即可生成目标状态的预测转录组。
数据预处理与质量控制:对所有使用的真实scRNA-seq数据,研究团队进行了标准化的质量控制,包括过滤低质量细胞(表达基因数过少、线粒体基因比例过高)、移除潜在的多重体、排除核糖体和线粒体基因。数据经过标准化和log转换后,选取高变异基因用于模型训练。
新颖性:Squidiff的核心新颖性在于将扩散模型的强大生成能力与语义潜变量的可解释性操作相结合。它不需要像图神经网络那样依赖先验知识图谱,而是通过从数据中学习到的潜空间向量来直接编码和操作生物扰动信息。此外,为了预测训练集中未出现的新药物,研究还集成了一个药物化合物适配器,该适配器受到PRNet模型启发,能够将药物的SMILES结构信息(通过重缩放功能类指纹,RFCFP编码)整合到语义潜变量中,从而扩展模型的泛化能力。
流程二:在多维生物医学场景下的验证与应用 研究团队在多个具有挑战性的真实数据集上系统地验证了Squidiff的性能。
验证场景一:预测细胞分化(以iPSC向内胚层分化为例)
验证场景二:预测基因与药物扰动
验证场景三:预测类器官发育与物理/药物干预——核心应用案例
第四, 研究的主要结果
本研究在各个验证场景中均获得了显著且具有生物学意义的结果。
结果一:成功预测细胞分化动态。 Squidiff仅使用起始和终点数据,就高精度地预测了iPSC向内胚层分化过程中第1天和第2天的中间状态(预测与真实数据的皮尔逊相关系数高达0.85-0.99)。伪时间分析显示,预测的状态与真实时间点高度吻合,关键基因(如多能性标志物NANOG下降,中内胚层标志物GATA6和T上升)的表达动态被准确捕捉。轨迹推断方法在预测数据上重建的连续轨迹与真实离散时间点高度一致,且识别出的差异基因与真实时间点定义的基因集有显著重叠。性能对比显示,Squidiff在预测准确性上显著优于此前的主流方法scGen。
结果二:精准预测非加性基因扰动和细胞类型特异性药物反应。 在预测ZBTB25和PTPN12的双基因非加性扰动时,Squidiff在无需任何基因相互作用先验知识的情况下,取得了与依赖图先验的GEARS模型相媲美甚至更优的预测精度(R²=0.92)。在药物预测任务中,Squidiff成功预测了训练中从未接触过帕比司他等药物的肿瘤细胞和少突胶质细胞对这些药物的特异性反应谱,并准确识别出帕比司他对肿瘤细胞的独特强效作用。在整合药物结构适配器后,Squidiff在预测完全未知的新化合物时,其性能与专门设计的新药预测模型PRNet相当或更优。
结果三:揭示了血管类器官的发育轨迹并预测了辐照损伤与药物保护机制。 这是本研究最核心的应用成果。 1. 发育轨迹:Squidiff成功预测了从iPSC到成熟BVO的连续发育过程。预测数据显示,在发育中期(第5-9天),存在一个同时具有内皮细胞和壁细胞特征的“壁细胞祖细胞”群体,这暗示了壁细胞向内皮细胞分化的潜能,与近期发表的BVO时间序列研究结论完全一致,而scGen等方法未能捕捉到这一关键瞬时状态。 2. 辐照损伤:模型在仅使用辐照内皮细胞数据训练的情况下,成功生成了辐照对壁细胞和成纤维细胞影响的预测数据,且与真实测序数据高度相关(皮尔逊r>0.96)。分析发现,辐照对发育早期细胞影响最大。鉴定出一系列辐照响应关键基因,如上调的CDKN1A (p21)、MDM2、GDF15,下调的TOP2A、HMGB2等。通路富集分析表明,辐照激活了p53介导的DNA损伤反应、细胞凋亡、NF-κB炎症通路和AKT信号。这些计算预测得到了湿实验的有力支持:辐照后BVO细胞死亡比例显著增加,培养上清中炎症因子IL-1β和TNF水平升高,血管网络结构遭到破坏、出现异常出芽。 3. 药物保护:在仅提供G-CSF处理的内皮细胞数据后,Squidiff准确预测了G-CSF对辐照壁细胞和成纤维细胞的转录组保护效应。差异基因分析揭示了三类细胞在G-CSF处理下不同的生物学过程:成纤维细胞富集于血管生成和形态发生相关通路;内皮细胞富集于调节凋亡和细胞周期的通路;壁细胞则与基因组稳定性和有丝分裂相关。这表明G-CSF可能通过促进血管谱系分化、抑制凋亡和维持基因组稳定性来发挥多细胞协同的保护作用。实验证实,G-CSF处理组的细胞死亡比例低于单纯辐照组。
这些结果层层递进,从合成数据到简单生物学系统,再到复杂的类器官模型,逐步证明了Squidiff框架的稳健性(robustness)、高分辨率预测能力和强大的生物学洞察力。模型预测的结果不仅与已有数据或知识吻合,更能揭示新的生物学现象(如瞬时状态),并指导后续的实验验证,形成了“计算预测-实验验证”的完整闭环。
第五, 研究的结论与价值
本研究的核心结论是:Squidiff是一个强大且通用的计算框架,能够基于单时间点的单细胞转录组数据,准确预测多种细胞类型在分化、发育、基因扰动、药物处理及物理刺激下的动态转录组响应和细胞状态转换。
科学价值: 1. 方法论创新:将条件扩散模型与语义潜空间操作相结合,为单细胞基因组学中的生成式建模和扰动预测设立了新标杆。它解决了现有模型在捕捉动态瞬时状态和跨场景泛化方面的关键瓶颈。 2. 理论洞察:通过成功预测BVO中壁细胞向内皮细胞分化的潜在路径,以及解析辐照损伤和G-CSF保护的多细胞协同分子机制,Squidiff为理解细胞命运决定的调控原则和组织在应激下的系统响应提供了前所未有的计算工具和深刻见解。 3. 推动“虚拟细胞”构建:该研究是迈向构建能够模拟细胞对环境变化响应的“虚拟细胞”的重要一步,为在计算机中进行大规模的、低成本的高通量筛选和机制探索奠定了基础。
应用价值: 1. 药物发现与优化:能够快速在计算机中筛选药物组合、预测细胞类型特异性副作用、探索全新化合物的作用机制,极大加速药物研发流程。 2. 疾病机制研究:为模拟疾病发生发展过程、解析复杂病因(如辐射损伤、发育异常)提供了强大的*in silico*模型。 3. 再生医学与毒理学:可用于预测干细胞分化轨迹、优化组织工程方案,以及评估环境毒素或治疗手段(如放疗)对特定细胞类型的影响。 4. 空间医学:本研究针对中子辐照和G-CSF的研究,直接为深空任务中宇航员面临的辐射血管病风险提供了机制理解和潜在的对策评估方案。
第六, 研究的亮点
第七, 其他有价值的内容
文章也客观地讨论了Squidiff的当前局限性,主要包括:扩散模型训练过程较长,计算资源需求高于VAE等生成模型;当前语义变量的线性操作假设在极端复杂场景下可能仅为近似;以及未来需要进一步利用体内模型进行验证以增强其转化潜力。同时,作者展望了未来的发展方向,如提升模型的可扩展性和计算效率以处理更大规模数据、整合多组学数据(蛋白组、表观组、空间信息)以构建更全面的预测模型,这为后续研究指明了清晰的路径。