T细胞受体表示对比学习的研究
T细胞受体(TCR)特异性预测的新突破——SCEPTR模型的提出
学术背景
T细胞受体(TCR)在免疫系统中扮演着至关重要的角色,它们通过与主要组织相容性复合物(MHC)呈递的肽段结合,决定了免疫反应的特异性。理解TCR与特定肽段-MHC复合物(pMHC)的相互作用是免疫学中的一个重大挑战。尽管高通量实验技术的发展为我们提供了大量TCR序列数据,但精确预测TCR与特定pMHC的结合能力仍然是一个难题。当前,蛋白质语言模型(PLMs)在高通量数据分析中展现出了强大的潜力,但在TCR特异性预测任务中表现欠佳,尤其是在数据稀缺的情境下。因此,如何有效利用无标注的TCR序列数据来训练模型,成为解决这一问题的关键。
论文来源
本文由Yuta Nagano、Andrew G.T. Pyo、Martina Milighetti等作者共同撰写,来自University College London、Princeton University等多所知名研究机构。论文于2025年1月15日发表在《Cell Systems》期刊上,题为*“Contrastive Learning of T Cell Receptor Representations”*。该研究通过引入一种新型TCR语言模型SCEPTR(Simple Contrastive Embedding of the Primary Sequence of T Cell Receptors),提出了一种结合对比学习和掩码语言建模(MLM)的预训练策略,显著提升了TCR特异性预测的准确性。
研究流程
1. 问题背景与研究动机
TCR与pMHC的结合能力预测是免疫学中的核心问题之一。尽管已有许多机器学习方法被应用于该领域,但这些模型在面对未见过的pMHC时泛化能力较差,尤其是在数据稀缺的情况下。已有研究表明,现有的蛋白质语言模型(如ProtBERT、ESM2)在TCR特异性预测任务中表现不佳,甚至不如序列比对方法(如TCRdist)。因此,本研究旨在通过引入对比学习,设计一种更适合TCR特异性预测的蛋白质语言模型。
2. SCEPTR模型的设计
SCEPTR模型的核心创新在于其预训练策略,即将自对比学习(Autocontrastive Learning)与掩码语言建模(MLM)相结合。具体而言,SCEPTR将一个TCR序列分为其六个互补决定区(CDRs),并通过一个简单的one-hot编码系统将每个氨基酸残基向量化。随后,这些向量通过三层自注意力机制生成64维的TCR表示向量。
自对比学习的核心思想是通过生成同一TCR的两个独立“视图”,并在表示空间中拉近它们的距离,同时推远不同TCR的表示。这种学习方式能够有效克服传统MLM预训练中的局限性,尤其是在处理由VDJ重组的随机性主导的TCR序列变异时。
3. 自对比学习的实现
在自对比学习中,SCEPTR通过随机丢弃部分输入特征(如某些氨基酸残基或整个TCR链)来生成两个独立视图。这种数据增强方法确保了模型能够在无监督学习中捕获TCR特异性相关的特征。此外,SCEPTR还使用了一个特殊的
4. 模型性能评估
为了评估SCEPTR的性能,研究团队设计了一个标准化的少样本预测任务。该任务要求模型在给定参考TCR的情况下,预测一个查询TCR是否与特定pMHC结合。研究比较了SCEPTR与现有模型(如TCR-BERT、ProtBERT、ESM2)以及序列比对方法(如TCRdist)的性能。
结果表明,SCEPTR在大多数情况下优于现有模型,尤其是在参考TCR数量较少的情况下。例如,当参考TCR数量为200时,SCEPTR在六个测试的pMHC中有五个表现优于TCRdist。此外,SCEPTR的对比学习策略显著提升了其在不同pMHC之间的区分能力。
5. 模型消融实验
为了验证自对比学习对SCEPTR性能的贡献,研究团队进行了多项消融实验。结果表明,仅使用MLM训练的SCEPTR变体性能显著下降,而使用对比学习的SCEPTR变体性能接近TCRdist。此外,研究还发现,SCEPTR的表示向量能够有效捕捉与TCR特异性相关的序列特征,尤其是在处理低生成概率(pgen)的TCR序列时。
主要结果与结论
1. SCEPTR的性能优势
SCEPTR在少样本TCR特异性预测任务中表现出色,显著优于现有模型。特别是在数据稀缺的情况下,SCEPTR的对比学习策略使其能够更好地泛化到未见过的pMHC。研究还发现,SCEPTR的表示向量能够有效捕捉序列比对方法无法捕获的TCR特异性特征。
2. 对比学习的科学价值
通过对比学习,SCEPTR能够在表示空间中有效区分具有相同特异性的TCR,同时推远不同特异性的TCR。这一特性使得SCEPTR在TCR特异性预测任务中具有显著的优势,尤其是在数据稀缺的情况下。
3. 应用前景
SCEPTR的提出为TCR特异性预测提供了一种全新的范式。该模型不仅能够用于少样本预测任务,还可以应用于TCR序列的聚类分析,从而发现抗原特异性的T细胞群体(metaclonotypes)。此外,SCEPTR的对比学习策略也为其他蛋白质相关任务提供了新的思路。
研究亮点
- 创新的预训练策略:SCEPTR通过结合对比学习和MLM,显著提升了模型在TCR特异性预测任务中的性能。
- 数据高效:SCEPTR在少样本任务中表现出色,能够有效利用无标注的TCR序列数据。
- 广泛的应用前景:SCEPTR不仅能够用于TCR特异性预测,还可以应用于TCR序列的聚类分析和其他蛋白质相关任务。
总结
本研究通过引入SCEPTR模型,提出了结合对比学习和掩码语言建模的预训练策略,为TCR特异性预测提供了新的解决方案。这一研究不仅解决了现有模型在数据稀缺情况下的泛化问题,还为蛋白质语言模型的训练提供了新的范式,具有重要的科学价值和应用前景。