基于保留指数的峰位移校正新方法在非靶向代谢组学中的应用研究
一、研究团队与发表信息
本研究由武汉大学化学与分子科学学院朱权飞(Quan-Fei Zhu)和冯钰琦(Yu-Qi Feng)领衔的团队完成,合作作者包括郝俊迪(Jun-Di Hao)、陈耀宇(Yao-Yu Chen)等。研究成果发表于分析化学领域权威期刊《Analytical Chemistry》2023年8月23日第95卷第13期(页码13330–13337),标题为《Novel Peak Shift Correction Method Based on the Retention Index for Peak Alignment in Untargeted Metabolomics》。
二、学术背景与研究目标
科学领域:本研究属于液相色谱-质谱(LC-MS)非靶向代谢组学(untargeted metabolomics)领域,聚焦于数据预处理中的峰对齐(peak alignment)技术。
研究背景:
LC-MS技术因高灵敏度、选择性及广谱覆盖性成为代谢组学研究的首选平台。然而,色谱分离条件的微小差异(如流速、梯度洗脱、色谱柱或仪器系统变化)会导致保留时间(retention time, RT)漂移,严重影响跨批次样本的峰对齐准确性。传统算法(如XCMS中的核估计法)虽能校正随机RT漂移,但对系统性漂移(如流动相组成变化)的校正能力有限,导致大规模代谢组学分析中假阴性/假阳性率升高。
研究目标:
开发一种基于保留指数(retention index, RI)的新型峰位移校正方法(RI-based CPSc),通过合成覆盖广色谱空间的N-酰基甘氨酸(N-acyl glycine)同系物作为校准物,构建RI系统,并建立峰位移校正模型,提升长期多批次LC-MS数据的对齐准确性。
三、研究流程与实验方法
1. N-酰基甘氨酸同系物的合成与表征
- 合成方法:通过甘氨酸与饱和脂肪酸(C2–C23)的酰胺化反应,一步法合成22种N-酰基甘氨酸同系物(图1a)。
- 表征与性能验证:通过LC-MS评估其在正/负离子模式下的响应强度,结果显示所有同系物在两种模式下均具有高灵敏度(定量限5.8–93.6 μg/L),且色谱保留时间覆盖0.8–24分钟(梯度25分钟),间隔均匀(图1c)。
2. N-酰基甘氨酸RI系统的建立
- RI计算原理(图2a):以相邻两个校准物的RT为基准,通过线性插值计算目标化合物的RI值。例如,某化合物RT为8.9分钟(介于Gly-C7和Gly-C8之间),其RI值为781。
- 校正能力验证:在流速(0.3–0.4 mL/min)、梯度时间(15–35分钟)、色谱柱(C18 vs. T3)和仪器系统(Agilent 6546 Q-TOF vs. Thermo Orbitrap Fusion)等变量条件下测试73种标准品。结果显示,RI系统能显著降低RT变异(相对偏差从54.3%降至3.4%),且在多参数同时变化时仍保持稳定性(图3e)。
3. RI-based CPSc模型的开发与验证
- 模型原理(图4):通过校准物的RI值将样本色谱时间轴映射至参考时间轴,实现全局时间点校正,再结合MS-DIAL软件进行峰对齐。
- 验证实验:使用人粪便样本,对比校正前后在日内(intraday)、4日间(interday)及长期(157天)分析的峰对齐准确率(AR)。长期数据分析显示,校正后AR从15.5%提升至80.9%,假阴性率(FNR)从76.8%降至13.2%(图5b)。
4. 软件工具开发
团队开发了Python开源程序(https://github.com/whu-fenglab/ri-based-cpsc),支持自动化数据校正。
四、主要研究结果
1. 校准物性能优越性:N-酰基甘氨酸同系物较既往报道的DMed-FA或NAPS校准物具有更广的色谱覆盖范围(logP −0.91至10.20)和双离子模式响应优势。
2. RI系统鲁棒性:在多种色谱条件变化下,RI值的重现性显著优于RT(图3),尤其适用于跨仪器、跨色谱柱的数据整合。
3. 模型应用效果:长期(157天)多批次数据校正后,特征峰(如m/z 431.1831)的RT漂移从0.13分钟降至0.02分钟(图5d),显著降低误对齐风险。
五、研究结论与价值
科学价值:
- 首次将GC中成熟的RI概念扩展至LC-MS代谢组学,提出系统性RT漂移的通用解决方案。
- 合成的N-酰基甘氨酸校准物兼具低毒性、低成本和高兼容性,为代谢组学标准化分析提供新工具。
应用价值:
- 提升大规模代谢组学研究的数据可比性,支持跨实验室、跨平台数据整合。
- 开源软件工具便于方法推广,助力精准医学和环境污染物筛查等领域。
六、研究亮点
1. 创新校准物设计:双离子模式响应的N-酰基甘氨酸同系物填补了现有LC-MS RI系统的空白。
2. 全流程校正模型:从RI系统构建到峰对齐算法整合,形成闭环解决方案。
3. 长期稳定性验证:在157天跨度数据中实现80.9%的峰对齐准确率,为迄今报道的最佳性能之一。
其他价值:
- 方法已通过人粪便样本验证(伦理批号IRB2022001),证实其在复杂生物基质中的适用性。
- 支持信息包含73种标准品详细数据及校准物合成核磁谱图,增强方法可重复性。
(全文完)