类型a:原创性研究报告
作者与发表信息
该研究由Jun Yang, Pengwei Guan, Di Yu, Qi Li, Xiaolin Wang, Guowang Xu(通讯作者)以及Xinyu Liu(通讯作者)共同完成,作者单位为中国科学院大连化学物理研究所医学蛋白质组学国家重点实验室。研究论文《metcohort: precise feature detection and correspondence for untargeted metabolomics in large-scale cohort studies》发表于Analytical Chemistry期刊,2025年5月6日在线发表,卷期号为97, 页码10155−10162。
学术背景
研究领域: 该研究属于基于液相色谱-高分辨质谱(LC-HRMS,Liquid Chromatography-High-Resolution Mass Spectrometry)的非靶向代谢组学领域,专注于大规模队列研究中的数据处理方法开发。
研究动机: 尽管LC-HRMS技术在代谢组学、蛋白质组学和暴露组学等领域广泛应用,但大规模样本分析中存在数据处理效率低、准确性不足的问题。具体而言,现有工具(如XCMS、MZmine)依靠色谱峰检测和样本间匹配,易产生假阳性/假阴性特征、特征对应错误和定量不确定性,且多批次分析的保留时间(Retention Time, RT)漂移问题显著。
研究目标: 开发metcohort算法,旨在解决以下三大核心挑战:(1)多批次样本的保留时间对齐(RT alignment),(2)高噪声环境下特征检测的准确性和灵敏度,(3)峰积分边界的精确判定与定量一致性。
研究流程与方法
数据对齐(Raw Data Alignment)
- 步骤1: 动态时间规整(DTW, Dynamic Time Warping): 对参考文件和目标文件的质谱谱图进行动态时间规整,生成RT偏移趋势基线。
- 步骤2: 局部锚点匹配: 检测参考文件中的强信号峰区域(ROAs, Regions of Anchors),并通过交叉相关分析(Cross-Correlation)匹配目标文件的提取离子色谱图(XICs)。
- 步骤3: 异常值去除: 采用Rout(Robust regression followed by outlier identification)算法剔除错误匹配点,基于局部加权回归(LOESS)构建最终RT映射函数。
- 验证: 测试1769例人血浆样本,RT偏差范围缩窄至-1~3秒(图2b);多批次数据对齐后,总离子流图(TICs)重叠性显著改善(图2c,d)。
特征检测(Feature Detection)
- ROI矩阵构建: 将对齐后的样本信号按保留时间和m/z分组,形成二维ROI矩阵(行=样本,列=时间点)。
- 图像处理技术: 采用Sobel算子检测垂直边缘(即峰边界),结合动态规划算法(Dynamic Programming)优化峰边界路径(图3b)。
- 多强度峰处理: 通过梯度归一化与掩膜技术(Peak Masking)实现不同强度峰的分离检测(图S7)。
- 双模式检测: 支持非靶向特征检测(基于ROI矩阵熵的动态阈值)和靶向特征提取(预设化合物表)。
评估与验证
- 灵敏度测试: 在436种外源化合物的标准混合样本(Data set IV)中,metcohort检出率达99.1%,低丰度化合物通过调整熵系数可进一步捕获。
- 特异性测试: 对比XCMS和MZmine 3,metcohort独有特征中低熵指数(高信噪比)占比提升2倍(图4b,d)。
- 定量准确性: 在混合比例已知的数据集(ST002454)中,48%的特征与混合比例的相关系数>0.9,优于XCMS(12%)和ASARI(25%)(图5)。
主要结果与逻辑关联
- 数据对齐效果: RT对齐显著提升特征检测数量(未对齐5497个 vs 对齐6487个)。多批次实验验证显示,metcohort能有效校正长期分析中的色谱漂移(图S3-S4)。
- ROI矩阵的优越性: 二维矩阵处理可同时考虑所有样本信号,减少传统单样本峰检测的假阳性(如孤立噪声被误判为峰)。动态规划算法确保峰边界的一致性(图3c)。
- 应用案例: 在1769例疫苗效应研究数据(Data set I)中,同位素和加合物的定量相关性(R>0.9)验证了算法的可靠性(图S13)。
结论与价值
科学意义:
1. 方法学创新: 首次将图像处理技术引入代谢组学特征检测,通过ROI矩阵实现全样本同步分析,突破了传统“先检测后匹配”流程的局限性。
2. 技术贡献: 结合DTW全局对齐与局部锚点匹配,解决了多批次LC-HRMS数据的RT漂移问题;基于熵的动态阈值降低了人工干预需求。
应用价值: metcohort作为开源工具(GitHub发布),可提升大规模队列研究的分析通量和数据可靠性,尤其适用于暴露组学中低强度外源化合物的筛查。
亮点与创新
- 创新方法: ROI矩阵将色谱峰检测转化为图像边缘识别问题,辅以动态规划优化,实现高精度峰边界判定。
- 全流程自动化: 从原始数据对齐到特征定量均无需手动峰匹配,显著降低人工错误(如XCMS需后期手动校正)。
- 多场景验证: 涵盖标准品、公共数据库和实际队列数据(如食管癌、房颤研究),证明其普适性。
其他价值
- 计算效率: 处理1769例样本时,特征检测耗时占比最高,但线性扩展性良好(表S2)。
- 用户友好性: 提供图形界面(图S15)和结果可视化功能,支持mzML/mzXML格式输入输出,便于与其他工具(如NetID)整合。