本文档为发表于《自然综述:分子细胞生物学》(*Nature Reviews Molecular Cell Biology*)的一篇路线图文章。作者团队以Aritra Bose、Kahn Rhrissorrakrai、Filippo Utro、Laxmi Parida(IBM研究所)及“量子医疗生命科学联盟”(Quantum for Healthcare Life Sciences Consortium)成员为核心。文章主题为“利用量子计算推进单细胞组学与细胞疗法”,系统地探讨了将量子计算这一新兴计算范式融入生物医学研究,特别是高分辨率单细胞和时空组学数据分析,以解决当前计算瓶颈并推动精准医疗的潜力与前景。
本文将围绕以下几个核心观点展开阐述:
观点一:高分辨率单细胞与时空组学技术的发展为精准医疗带来了革命性机遇,但其数据分析和模型构建面临巨大的计算挑战。
文章开篇指出,人类生理和疾病本质上是数十亿个细胞状态、行为和相互作用的功能体现。因此,理解个体细胞或细胞群体在多种环境(如信号分子刺激或治疗剂暴露)下的行为,对人类健康、疾病和衰老研究具有广泛意义。近年来,单细胞测序、空间转录组学和空间蛋白质组学等技术相继被《自然-方法》评为“年度方法”,标志着技术领域的重大突破。同时,诸如癌症基因组图谱、人类细胞图谱等大型生物图谱联盟计划,产生了海量的基因组、转录组、蛋白质组等多模态数据。
这些高分辨率技术的整合能够以单细胞精度捕获病变组织细胞和代谢活动的整体视角,以前所未有的分辨率研究基因表达、分子相互作用、信号通路和环境因素的时空动态。空间转录组学方法的出现,使得在精确空间坐标上检测、建模和理解细胞微环境成为可能,从而能够结合细胞内和细胞外信息来探索细胞-细胞相互作用,以深入了解复杂疾病的分子基础。
然而,这些技术突破的实现离不开人工智能和机器学习在生物学问题上的变革性应用。从多模态模型、合成生物学到蛋白质结构预测,AI/ML都驱动了快速进展。用于空间转录组学的计算方法需要执行多种任务,包括单细胞RNA测序数据整合、细胞类型注释、细胞分割、空间聚类、降维、细胞轨迹和相互作用推断以及数据可视化等。这些任务通常依赖于图深度学习、概率贝叶斯方法、核方法、最优传输、张量分解、集成学习等多种算法。
尽管这些方法在单细胞分析中的应用令人印象深刻,但仍存在重要局限,阻碍了其临床转化。部分局限源于单细胞数据本身固有的特性,如固有的复杂性和规模;另一些则与AI算法的缺陷相关,例如:在样本有限的情况下学习能力不足、模型过拟合、学习饱和、难以捕捉全局上下文信号、对分布外数据泛化能力差,以及二次方的时间和空间复杂度等。在多模态联合分析场景中,这些挑战可能更为严峻,AI模型常难以捕捉细粒度的空间分辨率、跨批次或实验条件泛化,或解析细微的时空轨迹。
观点二:量子计算作为一种新兴的高性能计算范式,有潜力解决单细胞组学数据分析中经典计算面临的固有瓶颈,为生物医学发现提供加速。
文章提出,对于某些类别的计算问题,解决方案可能在于量子计算。量子计算是一种区别于经典计算二进制逻辑的新兴高性能计算范式。它利用量子力学的原理,如叠加和纠缠,来执行计算。这些原理对于那些复杂性或内存需求呈指数级增长的问题尤其具有吸引力。
目前,基于不同量子比特(如中性原子量子比特、自旋量子比特、拓扑量子比特、囚禁离子量子比特、超导量子比特)的多种量子计算架构正在发展中。这些量子设备的规模从数十到上千个量子比特不等。虽然它们目前主要对噪声敏感,但用于保护量子信息的纠错技术正在不断进步。这些被称为“容错前量子设备”的硬件,已经在动态电路、门保真度、执行速度以及错误缓解和抑制技术等方面取得了进展。
这些量子计算的进步表明,正在朝着一个阶段迈进:对于特定应用,量子计算机可以比经典计算机更快、更便宜或更准确地解决某些有意义的问题。同样,量子优化和量子机器学习等量子算法,旨在比经典算法更高效地分析数据集或实现更好的泛化。根据具体用例,量子算法可能在准确度、能效、输入数据要求和速度等指标上实现某些优势。
观点三:在空间转录组学数据分析中,量子计算算法在上游数据处理(如细胞分割)和下游数据分析(如空间区域识别、细胞互作推断)方面均展现出替代或增强经典方法的潜力。
文章以空间转录组学为例,具体说明了量子计算可能的应用场景。上游数据处理涉及从原始数据中识别转录本斑点、匹配基因和分配给细胞。实现高密度测量的细胞分辨率需要精确的细胞分割。现有的经典深度学习方法受限于训练图像质量、高维数据整合以及泛化能力。
量子算法为此提供了新的可能性。例如,量子卷积神经网络可能成为基于Transformer方法(如Cellotype)的一种有前途的替代方案,因其可能对未知细胞类型的准确分割具有更好的泛化能力。量子双随机矩阵Transformer可以替代传统注意力模块中的softmax函数。此外,量子算法在学习马尔可夫随机场方面已被提出具有理论上的多项式加速,而量子Transformer模型已被提出用于自然语言处理任务,且参数更少,这些均可潜在地用于细胞分割任务。对于空间重建问题,将细胞相似性表示为细胞图并采用离散时间量子随机游走,或使用量子条件最优传输方法,都可能成为捕获细胞与空间位置精细映射的替代方案。
在下游数据分析中,经典方法如图神经网络被广泛用于细胞类型聚类、解卷积、预测空间基因表达和建模细胞微环境等任务。然而,肿瘤图的复杂性和纠缠的细胞邻域可能导致GNN的嵌入空间不理想,妨碍临床有意义模式的学习。此外,在大规模复杂图中搜索相对较小的查询子图是NP难问题。
量子计算为此提供了机遇。例如,变分量子分类器和量子神经网络在从相对较小的训练数据集学习时表现出更好的泛化能力。混合量子-经典模型(如使用GNN嵌入和VQC进行端到端训练)已在乳腺癌亚型分型中实现了与基线方法相当的性能。为解决贝叶斯方法(如马尔可夫链蒙特卡洛)的可扩展性问题,量子MCMC可以应用,其经验表明需要更少的迭代次数收敛且对噪声更鲁棒。量子集成方法可以用少得多的学习器或样本数量做出可比的预测。此外,量子拓扑数据分析在特定结构化图上对于快速计算贝蒂数以识别空间分辨基因,已展示出在容错量子设备上的超多项式甚至指数级加速潜力。
观点四:在单细胞转录组学的时序计算建模中,量子计算方法可为轨迹推断和扰动建模提供新的工具,以更好地理解细胞动态和对外部干预的反应。
生物学过程通常通过时序视角能更好地理解。轨迹推断方法通过降维、推断轨迹树和分配伪时间来刻画细胞状态变化。经典方法基于图划分、最小生成树、最优传输理论、变分自编码器与神经ODE、连续状态隐马尔可夫模型以及储备池计算等。
在扰动建模方面,旨在研究基因敲除、药物干预等外部影响如何扰动细胞,对于理解药理学和转化医学至关重要。经典计算工具包括统计图模型、生成模型(如生成对抗网络、变分自编码器)、最优运输框架以及基于Transformer的基础模型。
量子计算为增强这些建模提供了机会。量子电路可用于图形模型,以无偏方式估计底层概率分布,在处理具有高阶相互作用的结构时可能带来计算上的实质性改进。量子储备池计算及其变体可用于估计输入量子态的非线性函数,以理解影响其的动态过程,其训练概念简单且计算成本低。量子GAN和量子VAE能够以更少的参数学习底层概率分布,可能改善扰动建模中细胞的潜在表示。量子计算形式化的最优传输(如通过量子电路直接计算最优传输映射)和量子动力学潜神经ODE,可用于预测细胞群体组成因药物扰动而发生的变化,以及高精度推断细胞状态轨迹。这些量子等效方法有潜力解决经典方法在泛化性、可解释性和可处理性等方面的局限。
观点五:在整合单细胞多组学和发现高阶有意义相互作用方面,量子计算有望高效捕捉隐藏在数据拓扑结构和高阶关联中的复杂、隐性关系。
单细胞转录组学常与其他组学数据整合以获得对细胞和组织功能的整体理解。整合方法包括流形对齐、最优传输、张量分解、典型相关分析、非负矩阵分解以及基于图的嵌入技术等。然而,由于跨组学信息的不完整性,需要新方法来更好地探索可能存在于重要维度之间高阶相互作用拓扑连接中的隐秘关系。
拓扑数据分析和累积量将数据分析扩展到数据形状和高阶相互作用,以捕获隐藏结构。高阶累积量有助于过滤掉当变量独立时会消失的虚假低阶效应,从而成功应用于构建代表复杂疾病中不同通路的聚合表型。
量子TDA和量子累积量计算可以潜在地高效检测特征和高阶相互作用。首个QTDA算法针对高维特征情况,提供了相对于经典TDA的指数级加速。此外,从单细胞多组学数据中获取高阶潜在关系需要张量分解方法。量子张量分解方法已被提出,相对于经典对应方法具有可证明的四次加速,并有可能在容错前量子设备上使用变分量子算法实现。
这些生物拓扑技术应用于空间单细胞组学数据,将使得捕获那些隐秘的相互作用成为可能,从而更好地为上述时空模型提供信息。
观点六:在样本有限的学习场景下,量子机器学习模型因其特定架构特性(如表达能力、抗过拟合、参数效率),可能提供优于经典方法的解决方案。
尽管单细胞分析产生了大量信息,但生物样本,尤其是人类样本的可用性仍然有限。这阻碍了反映不同表型和人群的模型的开发。即使在获得样本的情况下,进行单细胞或空间分析的成本也极高。当高分辨率技术扩展特征空间时,越来越需要能更好处理缺失数据和有限样本量的方法。
在高度数据受限的环境中,量子神经网络可能提供某些优势。某些QNN架构已被证明比其某些经典对应物具有更强的表达能力,允许它们捕获更复杂的概率分布,并显示出训练时间上的潜在加速。此外,量子CNN具有对QML有价值的特性,包括变分参数随量子比特数量对数缩放、训练期间对“贫瘠高原”的抵抗力,以及在有限训练数据情况下可能产生更低泛化误差的潜力。在实践中,QCNN可以在使用数量级更少的可训练参数的情况下,实现与CNN相当的性能,从而降低过拟合风险并具有更大的泛化潜力。
量子GAN已用于生成经典数据、帮助小分子设计、生成图像以及学习底层概率分布,从而能够高效加载到量子态中。这些方法能够以比经典GAN更少的参数学习数据分布,并具有搜索指数增长空间的潜力,而这对于经典方法来说是难以分析的。
观点七:通过一个“量子赋能的细胞疗法”用例,展示了如何将不同的量子与经典计算技术结合,以深化对细胞行为的生物学见解并推动基于细胞的精准治疗策略。
文章最后通过一个癌症用例,描绘了三个研究路径如何汇聚以实现基于细胞的治疗方法。这三个路径包括:1) 工程化细胞用于免疫治疗:例如设计CAR-T细胞,这本质上是一个样本受限问题。量子CNN或投影量子核等方法可用于应对此数据有限问题。2) 开发时空细胞行为模型:利用GNN或自编码器嵌入数据到潜在空间,然后结合量子算法(如量子CNN、VQC或量子双随机Transformer)来增强性能,以预测疾病进展或治疗引入(如CAR-T细胞)时的细胞行为。3) 提取高阶特征相互作用:使用量子累积量、QTDA或量子张量分解来检测数据中由于生物系统复杂性和隐藏相关性而存在的高阶相互作用。这些方法的融合可用于开发基于细胞的精准医学,通过对疾病微环境进行单细胞分辨率建模,以识别能够改变细胞疾病生态系统、使其对治疗更敏感或使细胞进入静止甚至死亡状态的疗法。
结论与未来展望:文章总结道,尽管量子计算在过去十年中发展迅速,但在近期应用之前仍需考虑关键挑战,并为长期成功进行仔细规划。预计未来几年,随着具有200个逻辑量子比特和强大纠错能力的量子系统出现,硬件将大幅改进。然而,当前最先进的变分量子机器学习算法在规模化学习方面仍面临挑战,例如“贫瘠高原”、Ansatz选择以及量子态制备开销等问题。随着量子硬件的成熟,在张量分解、TDA或累积量等高阶计算等经典计算难以企及的领域,在原生数据空间运行的量子算法可能超越经典方法。同时,量子启发和去量子化算法的持续努力也在寻找量子优势并将其应用于增强经典方法。最终,任何量子算法的性能评估都需要严格的测试和基准测试。
单细胞和空间单细胞技术为推进生物学见解和治疗设计开辟了广阔机遇。这些机遇因计算工具和技术的巨大进步而成为可能。虽然这些工具至今完全是经典的,但随着量子计算的快速发展,我们现在正处于探索量子计算如何与经典计算协同工作以促进新发现的现实节点。量子计算有潜力成为一种强大的赋能技术,帮助推动单细胞、空间单细胞和新治疗模型向前发展。