利用MHC II与肽序列预测干扰素-γ释放:多样化计算方法探索 —— 一项机器学习赋能的免疫学研究综述
学术背景与研究意义
近几十年来,治疗性蛋白(therapeutic proteins)由于其在医学领域的巨大潜力,成为生物制药行业的研究重点。治疗性蛋白药物以其高度的靶向性为优势,被认为对许多以往难以治疗的急性或慢性疾病(如某些自身免疫病、癌症等)提供了解决方案。从1880年代血清治疗的发现到1986年首个单克隆抗体药物muromonab-CD3的推出,治疗性蛋白市场持续扩大,预计将在2032年达到近474亿美元。然而,治疗性蛋白引发免疫反应(immunogenicity)这一问题却一直困扰着药物研发人员。免疫反应既可能带来有害副作用,也可能激活治疗机制,例如疫苗就是通过激发体内免疫应答以实现免疫保护。
在蛋白药物所引发免疫反应的分子机制中,MHC(major histocompatibility complex,主要组织相容性复合体)II类分子的抗原递呈通路至关重要。MHC-II会结合蛋白质裂解生成的肽(peptide),形成pMHC-II复合物,递呈至T细胞,引发免疫反应。不同MHC-II等位基因(allele)对不同肽段的结合能力存在较大差异,即个体或者种群的遗传差异会显著影响免疫反应。进而,了解药物肽段与MHC-II的互作、评估其激发干扰素-γ(interferon-gamma, IFNγ)等关键细胞因子的能力对于药物设计的有效性与安全性评估具有里程碑意义。
然而,目前实验评估方法(如细胞因子释放实验、T细胞增殖实验等)存在成本高、耗时长、批量筛查能力不足等局限,难以适应庞大的肽/等位基因排列组合需求。因此,开发高效、普适、可解释的计算预测模型成为本领域亟需突破的难题。本研究正是在这一科学挑战下开展,其目标在于:建立基于肽和MHC-II序列的计算分类模型,高效预测IFNγ释放,并探索模型的可解释性和泛化能力。
论文来源与作者信息
本论文题为“exploring diverse approaches for predicting interferon-gamma release: utilizing mhc class ii and peptide sequences”,由Abir Omran、Alexander Amberg及Gerhard F. Ecker等人共同完成,作者分别隶属于University of Vienna药物科学系与Sanofi公司前期安全性部门。论文于2025年发表在Oxford University Press旗下的《Briefings in Bioinformatics》期刊第26卷第2期(DOI: https://doi.org/10.1093/bib/bbaf101)。该文为开放获取,旨在推动生物信息学与计算免疫学领域的前沿发展。
研究整体流程与具体实验细节
数据集收集与预处理
研究团队首先从Immune Epitope Database(IEDB)数据库中收集了关于人类宿主、MHC-II相关的IFNγ释放实验数据(包括阳/阴性测定)。每个pMHC-II对(即一个特定肽序列与一个特定MHC-II等位基因pseudo-sequence的组合)根据其数据库中大多数测定结果进行活性标注。例如,若某组合有5条测量记录,其中3条为阴性,即标记为“非激活型(inactive)”。
研究进一步限定肽序列长度为12-24个氨基酸,因文献显示这是最常见的MHC-II肽结合区间。对于重复(duplicate)数据进行处理,仅保留完全一致的唯一实例,删除其他类型的重复。这一系列筛选后,最终样本量为7266个pMHC-II对,其中非激活样本占30%,数据存在明显的不平衡(imbalance)。
数据集划分与处理
在模型开发阶段,作者采用10折交叉验证(cross-validation, CV)。考虑到类别不平衡及肽长分布等潜在混杂影响,特地采用分层抽样(stratified splitting)以保证每一折训练集与测试集在类别及肽长方面分布一致。肽长分布数据显示,其中15肽为主,占比达70%。
序列表示与特征工程
本研究对肽与MHC-II序列采用三类描述符(descriptor):
- LBE(Letter-based encoding, 字母编码):将氨基酸序列数字化,短于最长肽(25个AA)的序列补零(padding),便于后续建模。
- ProtBert嵌入特征(ProtBert embedding features):采用训练于2.17亿蛋白质序列上的BERT变体ProtBert模型,获得能捕获上下文信息的语义向量,从而丰富序列信息表达。
- Z-scale描述符:物化性描述符,专用于定长序列(故仅对主流15肽样本进行研究),反映AA的化学属性如疏水性、立体因素、电子性质等。
每个pMHC-II样本的肽与MHC-II等位基因pseudo-sequence的特征最终连接(concatenate)后输入模型。上述特征工程处理环节为模型提供了多维度的输入基础。
综合建模与算法开发
模型构建上,研究团队以传统“树型”机器学习算法为主,主要包括:
- 随机森林(Random Forest, RF):以高可解释性著称,适合发现特征重要性。
- 支持向量机(SVM)
- 梯度提升机(GBM)
针对类别不平衡性,研究者一方面优化分类阈值(试验多种概率来平衡灵敏性和特异性,最终选定0.65),另一方面采用主动学习(Active Learning, AL),即每轮选择最不确定的10个样本加入训练集,帮助模型增强对少数类的识别能力。此外,为节约算力,参数优化采用随机化搜索(randomized search),并就不同特征表示分别做交叉验证。
性能评估与模型泛化能力验证
模型性能主要指标包括平衡准确率(balanced accuracy)、Matthews相关系数(MCC)、精确率(precision)、灵敏度(sensitivity)、特异性(specificity)等。为进一步验证模型泛化能力,作者还搜集了T细胞增殖(t-cell proliferation)实验相关的IESB数据,筛选出未与IFNγ释放重叠的样本(共711条,活性600,非活性111),用于再验证Top模型的外部预测能力。
解释性分析与模型洞察
为了深入理解模型的决策过程,研究组还进行了一系列解释性分析:
- 特征重要性分析:以RF模型为基础,识别肽15肽序列中最关键的氨基酸位点(top 5),统计这几位点在两种类别中AA的分布差异。
- 虚拟单点突变试验(Virtual Single Amino Acid Mutation):在测试集肽序列的每一位置,逐一替换为20种氨基酸,并观测模型预测变化(用ERROR RATE增减表示),识别那些在特定位置变异后对预测影响最大(或最小)的AA类型。同时统计不同等位基因背景下突变效应的变异性,厘清MHC背景对预测结果的影响。
主要结果与数据分析
各模型性能评估
共构建11种不同组合模型。在各算法/特征中,随机森林(RF)在所有特征表示下均占优。最基础的LBE模型(未做复杂嵌入,仅简单数字编码)表现最佳,在10折CV下主要性能指标为:
- 平衡准确率:0.78
- MCC:0.53
- 精确率:0.88
- 灵敏度:0.78
- 特异性:0.77
Z-scale与LBE-15mer模型性能几乎相当,ProtBert模型灵敏度最低但特异性最高,主动学习使LBE模型表现略有提升(最高MCC为0.51),但超过350轮后性能趋于平台期。总的来看,复杂的信息富集型描述符在当前样本规模下并未带来提升,推测原因包括输入维度高导致特征稀疏。
T细胞增殖实验外部测试
LBE顶尖模型在t-cell proliferation外部数据集上的表现为:
- 平衡准确率:0.61
- MCC:0.21
- 精确率:0.88
- 灵敏度:0.87
- 特异性:0.35
虽然不能完全胜任非激活样本的筛查,但对活性样本的识别能力依然出色。考虑到外部数据集正负极度失衡,这一结果表明模型具备一定的端点泛化能力。
模型解释分析
在15mer肽RF模型中特征重要性排名Top 5的位置分别为p3、p14、p2、p8、p13。其中p2/p3/p8已知构成TCR结合区域,p13/p14虽未直接参与结合,但被证实对pMHC-II复合物的稳定性有显著影响。
氨基酸分布频率分析显示,五个位点在不同类别间并未出现明显特异性(如亮氨酸在活性/非活性两类中均为高频AA)。这提示模型并非依据单一AA的出现频率做决策,而是捕捉了序列多位点的协同模式。
虚拟单点突变实验进一步揭示:p2、p3、p8、p13、p14五个位点对预测影响最大,例如在p2或p14位点将氨基酸突变为酪氨酸(Y)能显著提升或降低错误率(最大ΔER为0.017),而某些突变在不同MHC背景下显示出预测正负变化甚至转换(例如G→Y在HLA-DRB10901背景下能导致活性预测反转)。这些观察再次印证了模型已学习到MHC背景、肽序列与免疫反应的多步复杂协同关系。
研究结论与科学与应用价值
本研究系统性地比较了多种基于序列特征的计算方法,证明即使采用最基础的字母编码,也可利用RF等算法实现对pMHC-II复合物诱导IFNγ释放的有效计算预测。结合主动学习、模型解释性工具,研究者不仅获得了较好的预测性能,还深入理解了预测背后的分子机制。研究结果证实模型可泛化至T细胞功能其他相关实验数据,为日后高通量、普适性药物免疫原性风险评估提供了理论与方法学基础。
研究亮点
- 多样化特征描述比较:兼顾物化、自然语言处理(ProtBert)及传统数字编码,为领域建模实践提供参考。
- 主动学习策略尝试:通过引入主动学习优化模型性能,提升对少数类的识别力,实践了算法创新思路。
- 深入的模型解释性实验:结合特征重要性和虚拟突变,揭示模型实际利用的生物学信息,强化模型成果的可用性与可信度。
- 端点泛化能力验证:首次将模型应用于不同但相关的T细胞功能实验,为其在真实药物研发流程中的推广应用奠定基础。
- 公开数据与代码:所有数据与代码均在github开源,为社区复现与改进作出表率。
存在的挑战与展望
- 数据集存在实验格式、具体检测方法动力学等异质性,未全量纳入建模特征。
- 类别极度失衡及等位基因分布不均,可能影响模型泛化到罕见基因型。
- 新一代大型预训练蛋白BERT模型若针对任务优化,有望提升性能。
总结
这项研究有效探索并整合了蛋白药物免疫风险高通量预测之路,为未来个性化免疫原性预测、药物设计优化、临床前筛查流程提供了坚实方法学基础和理论支撑。无论是算法创新,还是解释性与可操作性设计,均具有极高的科学参考和应用价值。同时,未来可序列入更大规模数据、融合多模态信息进一步深入完善。该工作对于生物信息学、计算免疫学乃至生物医药产业均具有重要的启示意义。