从蛋白质图像中学习细胞力学的可解释机器学习模型

分享自：
从蛋白质图像中学习细胞力学的可解释机器学习模型

期刊:CellDOI:10.1016/j.cell.2023.11.041
关于细胞力学可解释模型从蛋白质图像中构建的学术研究报告
本研究由Matthew S. Schmitt, Jonathan Colen, Stefano Sala, John Devany, Shailaja Seetharaman, Alexia Caillier, Margaret L. Gardel, Patrick W. Oakes和Vincenzo Vitelli共同完成，主要研究机构包括美国芝加哥大学詹姆斯·弗兰克研究所、物理系、Kadanoff理论物理中心，以及芝加哥洛约拉大学斯特里奇医学院细胞与分子生理学系。该研究成果于2024年1月18日发表在《细胞》（*Cell*）期刊第187卷，第481-494页。
一、 学术背景
本研究属于细胞生物物理学与计算生物学交叉领域，具体聚焦于细胞力学与机器学习结合的前沿方向。活细胞的功能，如粘附、迁移和形态发生，与其内部产生的机械力密切相关。这些力主要由细胞骨架产生，并通过称为黏着斑（Focal Adhesions, FAs）的蛋白质复合体传递到细胞外基质。传统上，测量这些牵引力（traction forces）需要复杂的牵引力显微镜（Traction Force Microscopy, TFM）技术，而理解这些力如何从复杂的生物化学信号（如蛋白质的空间分布）中产生，则是一个长期的挑战。现有的生物物理模型通常基于经典连续介质力学的直觉，但细胞是一个非经典、非平衡的活性系统，其力学行为由跨尺度的、受生化网络调控的机械化学过程交织控制，这使得用少数简单变量来参数化系统动态变得异常困难。
本研究旨在克服这一挑战。其核心目标是：利用机器学习，特别是深度神经网络，直接从细胞骨架蛋白的荧光图像中预测细胞的牵引力，并在此基础上构建可解释的、数据驱动的细胞力学模型。研究者希望回答一个关键问题：是否可能以及如何从单一的分子信息（如一个黏着斑蛋白的图像）中，推断出细胞整体的大尺度物理特性（如牵引力场）。这不仅有助于理解细胞力学的普遍规律，也为整合神经网络到细胞生物学的预测模型中提供了一个范例。
二、 详细工作流程
本研究包含一系列相互关联的步骤，构成了一个完整的数据驱动建模流程。
1. 数据采集与数据库构建： 研究首先创建了一个配对图像数据库。研究对象主要是表达增强绿色荧光蛋白标记的黏着斑蛋白Zyxin的小鼠胚胎成纤维细胞（MEFs）。这些细胞在涂有纤连蛋白的二维聚丙烯酰胺凝胶上铺展。研究者同时进行两项测量：(a) 使用荧光显微镜获取Zyxin蛋白的空间分布图像；(b) 使用牵引力显微镜（TFM）测量细胞施加在基底上的牵引力。TFM通过追踪嵌入凝胶中的荧光微珠的位移来反推力场。最终，数据库包含了来自31个独立细胞时间序列的Zyxin图像及其对应的牵引力场数据。这些数据被随机划分为训练集（16个细胞）和测试集（15个细胞），用于后续的模型训练与验证。
2. 深度神经网络预测牵引力： 研究者采用了一个基于U-Net架构的深度卷积神经网络，并加入了ConvNeXt模块以提高准确性和训练效率。网络的输入是单通道的Zyxin荧光强度图像，输出是预测的二维牵引力矢量场。网络在训练集上学习从Zyxin图像到牵引力场的映射关系，然后在未见过的测试集细胞上进行评估。结果表明，仅凭单一的Zyxin蛋白图像，U-Net就能高精度地预测牵引力的大小和方向，其预测与实验测量结果高度吻合。为了评估稳健性，研究者进行了22次不同的训练/测试集随机划分，发现模型性能波动很小。
3. 模型泛化能力与蛋白质特异性测试： 为了探究所学习规律的普适性，研究进行了多项泛化测试：(a) 跨蛋白质测试：训练了分别以肌动蛋白（actin）、肌球蛋白（myosin）、另一黏着斑蛋白Paxillin、线粒体（阴性对照）以及细胞二元掩膜（仅形态）为输入的神经网络。结果显示，黏着斑蛋白（Zyxin和Paxillin）的预测性能最佳，而结合多个蛋白质输入并未进一步提升性能，表明单一黏着斑蛋白已包含预测力场所需的“最小信息”。(b) 跨细胞类型测试：将在成纤维细胞上训练的Zyxin-U-Net直接应用于未训练过的人类骨肉瘤细胞（U2OS，表达Zyxin）和犬肾上皮细胞（MDCK，表达Paxillin）图像，模型仍能做出准确预测，尽管后者是在更软的基底上用不同显微镜采集的数据。© 跨生化扰动测试：将模型应用于经过Rho激酶（ROCK）抑制剂Y-27632处理的细胞时间序列数据。模型在未见过该药物扰动的情况下，成功预测了药物处理期间牵引力的下降、黏着斑的缩小以及洗脱后力的恢复。这些实验强有力地证明，Zyxin的分布是细胞力学状态的可靠代理，且神经网络学到了超越训练条件的通用规则。
4. 神经网络特征识别与解释： 为了理解神经网络做出预测所依据的特征，研究者进行了系统分析。(a) 感受野分析：训练了不同输入裁剪尺寸（10微米至130微米）的U-Net。发现当输入尺寸超过约25微米后，预测精度不再显著提升，表明网络无需知晓整个细胞几何形状，局部邻域信息已足够进行准确预测，但预测力的方向需要比预测大小更大的上下文信息。(b) 合成细胞探针：通过生成具有特定几何形状（如三角形、不同曲率边缘）或特定黏着斑特征（不同面积、长宽比、强度的椭圆）的合成Zyxin图像，输入训练好的网络以观察其响应。结果发现：网络预测的力随细胞尺寸增大而增加；网络对指向细胞内部的、细长（高长宽比）的“黏着斑样”结构预测出更高的力；并且预测力随“黏着斑”强度呈非线性增长。这些发现与已知的细胞生物学知识一致，表明网络识别出了有意义的生物学特征，而非记忆无意义的噪声。
5. 物理约束神经网络：学习增强的有效弹性模型 为了将蛋白质信息整合到可解释的物理模型中，研究者提出了“物理瓶颈神经网络”（Physical Bottleneck Neural Network, PBNN）。该方法基于一个现有的将细胞视为粘附在基底上的二维活性弹性凝胶的简化模型。该模型原本只有两个全局参数：均匀的粘附强度γ和全局主动应力σ_a。本研究将其扩展，使粘附强度成为一个依赖于Zyxin分布的空间变化场γz。PBNN的结构特点是：一个神经网络子模块从Zyxin图像中学习并输出γ(x)和σ_a这两个参数；这两个参数随后被输入一个确定性的偏微分方程（PDE）求解器（基于有限元方法），该求解器根据线性弹性理论计算位移场，最终得到牵引力场（f = γ u）。训练过程中，通过伴随方法（adjoint method）确保神经网络参数的更新始终满足物理模型的约束。PBNN能够准确预测力场，并能泛化到药物扰动情况。分析学习到的γ场发现，它高度异质化且定位于真实的黏着斑位置，其强度与Zyxin信号的高值区域（即黏着斑）强相关。PBNN的成功表明，一个包含细胞形状（作为边界条件）、全局收缩“设定点”σ_a以及一个编码黏着斑的场γ(x)的线性PDE模型，足以描述观测到的力学行为。
6. 格林函数神经网络：物理无关的模型构建揭示长度尺度与有效方程 为了在无需预先假设具体物理模型的情况下发现数据背后的规则，研究者开发了“格林函数神经网络”（Green’s Function Neural Network, GFNN）。该方法假设牵引力可以表示为从Zyxin推导出的若干机器学习场的函数。GFNN学习从Zyxin图像中提取“源”场，并通过学习到的格林函数（描述空间相互作用的核函数）将这些“源”积分成“势”场。一个关键发现是，仅需两个场（记为χ和ψ），就能以f = χ ∇ψ的形式准确地预测牵引力。这个形式在数学上令人联想到静电学（f 类比于电场E，χ类比于电荷密度ρ，ψ类比于电势φ）。分析学习到的格林函数发现，χ对应的格林函数衰减很快（~5微米），与黏着斑尺寸相当，表明χ编码了局部黏着斑信息；而ψ对应的格林函数衰减较慢，跨越数十微米，表明ψ整合了更大范围（如细胞形态）的信息。为了进一步简化模型，研究者使用稀疏回归（Sparse Regression）从GFNN学习到的规则中提炼出一个精简的解析公式。该公式仅包含少数几项，参数数量比原始U-Net少了10^5倍，却能捕捉U-Net预测的77%的方差，并能泛化到生化扰动实验。
三、 主要结果
单一黏着斑蛋白足以预测细胞牵引力：U-Net模型证明，仅凭Zyxin或Paxillin的单张荧光图像，即可高精度预测细胞在基底上施加的牵引力场。该预测在力的大小和方向上均与实验测量高度一致。这是本研究的核心发现，表明黏着斑蛋白的分布蕴含了决定细胞粗粒化力学行为的充分信息。
模型展现出强大的泛化能力：训练于单一细胞类型和实验条件的模型，能够成功预测不同细胞类型（U2OS, MDCK）、不同黏着斑蛋白（Paxillin）以及不同生化状态（ROCK抑制剂处理）下的牵引力。这强烈暗示神经网络学习到了关于细胞力生成的某种普适性底层规律，而非仅仅记忆训练数据中的特定模式。
神经网络识别出与生物学一致的特征：通过感受野分析和合成细胞测试，揭示了网络决策所依据的特征：力的幅度主要与局部黏着斑特征（大小、强度、取向）相关，而力的方向则需要更大尺度（约25微米以上）的上下文信息，可能与细胞整体形态和应力纤维组织有关。
物理约束方法成功将蛋白质信息映射为物理参数：PBNN方法成功地将Zyxin图像映射到一个有效弹性模型的空间变化粘附场γ(x)和全局主动应力σ_a。学习到的γ场定位于黏着斑，且其强度与高Zyxin信号相关，为“蛋白质分布如何设定力学参数”提供了一个可解释的桥梁。
物理无关方法揭示了力编码的双长度尺度：GFNN方法在没有预设物理公式的情况下，自主发现了牵引力可以分解为两个场的乘积（f = χ ∇ψ），并进一步揭示这两个场分别由短程（~5微米，黏着斑尺度）和长程（数十微米，细胞尺度）的格林函数所生成。稀疏回归进一步将该关系提炼为一个紧凑的解析方程。
不同方法结论一致：尽管U-Net、PBNN和GFNN这三种方法在复杂度和先验知识约束上差异巨大，但它们都得出了一个一致的物理图景：细胞牵引力的预测需要两个长度尺度的信息——一个与局部黏着斑本身相关，另一个与细胞整体形态或长程相互作用相关。在PBNN和GFNN中，这种耦合分别表现为 f = γ u 和 f = χ ∇ψ 的相似数学形式。
四、 结论与意义
本研究的结论是，基于图像的深度学习方法能够从单个黏着斑蛋白的分布中预测细胞的收缩力学行为，并且这种预测是稳健和可泛化的。通过结合数据驱动与物理约束或物理启发的方法，研究者不仅实现了高精度预测，还构建了可解释的模型，揭示了细胞力生成背后由两个特征长度尺度主导的规则。
其科学价值在于： 1. 方法论创新：研究展示了一套从“黑箱”预测到“可解释”建模的完整机器学习流程（如图7所示），包括纯数据驱动的深度网络、物理约束的瓶颈网络和物理无关的格林函数网络。这为细胞生物学乃至更广泛的复杂系统研究提供了强大的数据驱动建模范例。 2. 基础理论见解：研究明确了黏着斑蛋白分布作为细胞力学状态“代理”的充分性，并揭示了力编码的双长度尺度原理。这深化了对细胞如何整合局部黏着信号与全局几何形态以产生协调力学输出的理解。 3. 应用潜力：该方法使得在易于进行荧光成像但难以直接力学测量的情境下（如体内、复杂三维环境），预测细胞力学行为成为可能。它为研究细胞迁移、组织力学和形态发生等过程提供了新工具。
五、 研究亮点
最小信息原则的验证：首次系统证明并验证了仅凭单一黏着斑蛋白图像即可准确、泛化地预测细胞牵引力，确立了此类蛋白作为力学预测“最小信息集”的地位。
卓越的模型泛化性：模型在未见过的细胞类型、蛋白质、实验设置和生化扰动下均表现良好，证明了其学习到的是普适性规律，而非过拟合的特例。
可解释性突破：成功地将高性能但不可解释的深度神经网络（U-Net）的“知识”，通过物理约束（PBNN）和物理无关（GFNN）的途径，提炼为具有清晰物理解释的模型和简洁的数学公式，实现了从“黑箱”到“玻璃箱”的跨越。
一致的核心发现：通过多种独立方法 converging（汇聚）到同一个核心发现——力生成由局部（黏着斑）和全局（细胞形态）两个长度尺度的信息共同决定，极大地增强了结论的可信度。
六、 其他有价值内容
研究也讨论了其局限性，例如模型的预测性能可能受数据质量（显微镜、荧光团、基底硬度）影响；当前分析限于二维静态图像，尚未扩展到三维或动态场景；TFM的正则化参数选择对结果有影响等。这些为未来研究指明了改进方向，例如构建更广泛的数据集、发展三维和动态模型。作者展望，该方法可应用于更复杂的系统，如细胞迁移、上皮组织动力学和形态发生，并可能有助于发展将蛋白质动力学与力学耦合起来的完整机械化学模型。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问