分享自:

深度检测:基于肽可消化性增强的肽可检测性深度学习及其在DIA库缩减中的应用

期刊:anal. chem.DOI:10.1021/acs.analchem.2c03662

基于肽段可消化性增强的肽段可检测性深度学习算法deepdetect及其在DIA库缩减中的应用

作者及发表信息
本研究的通讯作者为Yan Fu(付岩),来自中国科学院数学与系统科学研究院(Academy of Mathematics and Systems Science, Chinese Academy of Sciences)及中国科学院大学(University of Chinese Academy of Sciences)。其他作者包括Jinghan Yang(杨靖涵)、Zhiyuan Cheng(程志远)和Fuzhou Gong(龚福州)。研究发表于Analytical Chemistry期刊2023年3月第95卷,页码6235−6243。


学术背景

研究领域:本研究属于蛋白质组学(proteomics)中的计算蛋白质组学领域,聚焦于串联质谱(tandem mass spectrometry, MS/MS)数据分析中的肽段可检测性(peptide detectability)预测问题。

研究动机:在基于串联质谱的蛋白质组学中,蛋白质需经特定蛋白酶(protease)消化为肽段后进行分析,但实验中仅部分肽段可被检测到。肽段可检测性(定义为肽段在标准实验条件下被观测到的概率)是影响蛋白质鉴定覆盖率的关键因素。然而,现有预测工具存在以下局限:
1. 依赖手工特征(hand-crafted features),导致特征提取不充分;
2. 未考虑蛋白质消化效率(digestibility)对肽段检测的影响;
3. 缺乏支持多种蛋白酶的通用算法。

研究目标:开发一种名为deepdetect的双向长短期记忆网络(bidirectional long short-term memory, BiLSTM)算法,通过整合肽段可消化性(digestibility)提升可检测性预测精度,并应用于数据非依赖采集(data-independent acquisition, DIA)质谱的谱库缩减。


研究流程与方法

1. 数据准备与预处理
- 数据来源:使用8个训练数据集(覆盖8种蛋白酶:trypsin、ArgC、chymotrypsin、GluC、LysC、AspN、LysN、lysarginase)和11个独立测试数据集(来自大肠杆菌、酵母、小鼠和人类样本)。
- 数据处理
- 通过MaxQuant软件(版本未明确)分析原始质谱数据,设置1%的假发现率(FDR)。
- 筛选高丰度蛋白质(根据谱计数和序列覆盖率排名前50%),通过in silico(计算机模拟)消化生成理论肽段,保留未鉴定肽段作为负样本。
- 为避免类别不平衡,训练集中正负样本数量均衡,而测试集保留所有未鉴定肽段作为负样本。

2. deepdetect算法设计
- 输入与编码:肽段序列通过嵌入层(embedding layer)转换为固定长度(Lmax)的矩阵(Lmax × 10),不足部分用零填充。
- 特征提取:BiLSTM网络提取40维特征向量,输出初始概率(p_BiLSTM)。
- 可消化性整合
- 使用作者团队此前开发的deepdigest算法预测肽段两端及遗漏切割位点(missed cleavage sites)的消化概率(p_n, p_c, p_m)。
- 通过公式计算肽段可消化性(p_dig = p_n × p_c × Π(1−p_m))。
- 最终预测:肽段可检测性(p_det)为p_BiLSTM与p_dig的乘积。

3. 性能评估与比较
- 评估指标:采用ROC曲线下面积(AUC)避免阈值偏差。
- 对比方法:包括现有深度学习工具pepformer、随机森林模型AP3及消化性预测工具deepdigestDPMC

4. DIA谱库缩减应用
- 实验设计:使用DIA-NN软件分析血浆和酵母数据集(PRIDE编号PXD014690),构建理论谱库后按deepdetect预测的可检测性排序,保留前n%(n=5–100)肽段生成缩减谱库。
- 评估指标:比较不同缩减比例下的肽段/蛋白质鉴定数量及计算时间。


主要结果

1. 预测性能提升
- 可消化性的贡献:整合p_dig后,deepdetect在11个测试数据集上的AUC显著提升(如chymotrypsin数据提升21.2%)。
- 对比优势:deepdetect的AUC(0.848–0.976)均高于pepformer,且在低丰度蛋白质中表现稳健(AUC 0.831–0.938)。

2. DIA应用效果
- 效率与灵敏度平衡:缩减谱库至前40%肽段时,DIA-NN运行时间减少42.6%(血浆数据),而肽段和蛋白质鉴定数量未下降(甚至提升0.9–3.6%)。
- 随机对照验证:随机缩减40%肽段导致鉴定数量骤降(如血浆数据中肽段减少76.3%),凸显deepdetect筛选的有效性。


结论与价值

科学意义
1. 首次将肽段可消化性作为关键特征融入可检测性预测模型,揭示了消化效率对质谱检测的直接影响。
2. 提出支持多种蛋白酶的通用算法,填补了现有工具的局限性。

应用价值
- DIA数据分析:大幅提升谱库搜索效率(节省40%以上时间),且不损失鉴定灵敏度,为大规模蛋白质组学研究提供实用工具。
- 工具开源:deepdetect代码及数据集公开(http://fugroup.amss.ac.cn/software/deepdetect/deepdetect.html),促进领域内方法开发。


研究亮点

  1. 多蛋白酶支持:覆盖8种常用蛋白酶,远超现有工具(如pepformer仅支持trypsin)。
  2. 端到端深度学习:直接以序列为输入,避免手工特征依赖,提升模型泛化能力。
  3. 跨数据集验证:在4种生物样本(细菌至人类)中均表现优异,证实算法普适性。
  4. 实际应用导向:首次将可检测性预测与DIA谱库缩减结合,解决计算瓶颈问题。

其他价值
- 通过迁移学习(transfer learning)适配不同实验条件的数据,增强模型鲁棒性。
- 提出肽段可检测性可作为“缺失蛋白质”(missing proteins)鉴定困难的潜在解释,为后续研究提供新思路。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com