基于机器学习的多学科长跑损伤预测研究

分享自：
基于机器学习的多学科长跑损伤预测研究

期刊:npj digital medicineDOI:10.1038/s41746-026-02413-y
学术研究报告
一、 研究作者、机构与发表信息
本项研究的主要作者为 Han Wu、Katherine Brooke-Wavell、Michael R. Barnes、Zainab Awan、Sarabjit Mastana、Sam Allen 及 Richard C. Blagrove。该研究团队主要来自英国拉夫堡大学（Loughborough University）体育、运动与健康科学学院，以及伦敦玛丽女王大学（Queen Mary University of London）转化生物信息学中心。该项研究成果以题为“Multidisciplinary prediction of running-related injuries using machine learning”的论文形式，发表于《npj Digital Medicine》期刊。该期刊与首尔国立大学盆唐医院合作出版。论文的在线发表日期为2026年，具体卷期为第9卷第213页。
二、 学术背景与研究目标
本研究属于运动医学、运动科学与人工智能（机器学习）交叉领域，聚焦于耐力跑相关损伤（Running-Related Injury, RRI）的预测问题。尽管耐力跑有益健康，但其损伤发生率很高（约45%），对跑者的生活质量造成负面影响并带来医疗负担。RRI的成因具有多因素性，涉及内在特征（如遗传、年龄）、神经肌肉能力、过往伤病史、跑步生物力学以及训练行为等多个维度。然而，既往的大多数研究往往仅从单一维度（如仅关注训练负荷或生物力学）探究风险因素，未能充分考虑这些因素之间复杂的相互作用。此外，尽管机器学习（Machine Learning, ML）在医学诊断和预后领域已广泛应用，但在运动损伤预测研究中的应用仍存在局限，例如样本量小、损伤定义不清晰、预测变量选择缺乏充分依据、以及模型比较不充分等。具体到耐力跑领域，此前仅有一项前瞻性研究使用机器学习进行过RRI预测，且其纳入的风险因素范围较窄。
因此，本研究旨在填补上述空白。其主要目标是创建一个涵盖多学科、基于充分证据的风险因素数据集，用于机器学习建模，以预测耐力跑者的RRI。该数据集整合了遗传学、肌肉力量、生物力学、营养、身体成分、人体测量学和训练等多个领域的风险因素。本研究的方法论旨在为未来利用ML预测运动损伤的研究提供一个可复现的框架。基于此稳健的多学科数据集，研究的次要目标是对不同机器学习模型在12个月RRI预测中的性能进行比较分析，以探究不同算法在此任务上的表现差异。
三、 详细研究流程
本研究采用前瞻性队列设计，流程严谨且复杂，主要包括以下阶段：
1. 伦理审查与参与者招募： 研究获得了英国国家医疗服务体系（NHS）研究伦理委员会和拉夫堡大学伦理小组委员会的批准。参与者招募时间为2022年11月至2023年7月。研究对象为149名竞技耐力跑者，最终有142名跑者（女性64人，男性78人）完成了完整的数据贡献。纳入标准包括：年龄14-50岁；至少有三年参与竞技性耐力跑（距离≥5公里）的经验；每周至少进行4小时跑步训练；研究开始时无伤病。排除标准包括：使用严重影响骨骼健康的药物或患有相关疾病；四肢中有用于骨骼扫描的钢钉或钢板；过去六个月内怀孕或哺乳；当前使用电子烟或吸烟。
2. 基线测量与多学科数据采集： 在基线阶段，参与者接受了一系列全面的测试和评估，以收集潜在的RRI风险因子。这些因子根据证据质量被分为三类（Class 1-3），其中Class 1风险因子具有最高质量的证据支持。详细流程包括： * 问卷调查：在线完成问卷，内容涵盖12个月伤病史、骨骼特异性体育活动问卷（BPAQ）、六个月内的比赛成绩记录、12个月的训练历史、进食障碍检查问卷（EDE-Q）以及针对女性的低能量可用性问卷（LEAF-Q）。 * 人体测量：测量身高和体重。 * 身体成分与骨骼扫描：使用双能X射线吸收测定法（DXA）扫描腰椎、髋部和全身的骨密度，并测量腿部区域的去脂质量。使用外周定量计算机断层扫描（pQCT）在非优势侧胫骨66%长度处测量肌肉横截面积。 * 生物力学评估：测量Q角（股四头肌角）；采用既定方案评估坐站姿舟状骨下落（Navicular Drop）及其不对称性。在测力跑台上以10公里/小时和12公里/小时的速度各跑步一分钟，记录垂直地面反作用力和步频。 * 肌肉力量测试：使用等速测力计测量髋关节外展/内收和膝关节伸展/屈曲的向心峰值扭矩，作为肌肉力量的指标。 * 遗传学分析：收集唾液样本用于DNA提取，并分析先前研究与RRI相关的特定单核苷酸多态性（SNPs）。
3. 前瞻性追踪期： 基线测试后，参与者进行了为期52周的每周追踪。 * 每周问卷：参与者每周在线报告跑步量、其他身体训练情况以及伤病情况（使用奥斯陆运动创伤研究中心过度使用损伤问卷）。 * 定期复查：每四个月，参与者返回实验室重复DXA和pQCT扫描。 * 营养日记：在两次实验室访问之间，参与者使用提供的数字秤和Libro应用程序，完成为期三天的食物日记。
4. 数据预处理与特征工程： 每个“参与者-周”构成一个数据样本，目标是利用该周之前的所有可用信息来预测该周内是否发生RRI。损伤定义为：任一身体部位的奥斯陆问卷得分较前一周增加，且参与者主观认定该损伤与跑步相关。数据预处理包括： * 样本筛选：排除缺少前一周数据的样本，并对所有损伤案例进行人工检查以减少误差。 * 数据归一化：将所有数据归一化到0-1范围，以供机器学习训练。 * 缺失值插补：对于因意外（如实验室停电）导致的少量缺失数据（如生物力学数据、SNP结果、营养值），采用中位数或均值进行插补。
5. 机器学习模型选择与评估： * 模型选择：研究选择了多种ML算法进行比较，范围从简单、可解释性强的模型（如决策树、逻辑回归、贝叶斯网络）到具有不同数学假设的复杂模型（如随机森林、AdaBoost、梯度提升、支持向量机、K最近邻、人工神经网络）。此外，研究还设计并测试了两种新颖的算法：时间序列神经网络（Time-Sequenced Neural Network, TSNN）和时间序列图神经网络（Time-Sequenced Graph Neural Network, TSGNN）。这两种新算法旨在整合反映人类风险暴露渐进性的时间领域特定逻辑，以期在预后建模中实现更好的性能与可解释性。 * 特征集：分析分别在两个特征集上进行：(i) 仅包含高质量证据的Class 1风险因子（共39个特征）；(ii) 包含所有可用风险因子（Class 1-3，共257个特征）。 * 模型评估流程： * 特征降维：由于候选特征数量多，为防止维度灾难，采用了Relief和LASSO（最小绝对收缩和选择算子）两种方法并行进行特征选择。 * 性能评估：采用分层10折交叉验证框架下的受试者工作特征曲线下面积（AUC）作为主要评估指标，以防止过拟合并便于与既往研究比较。 * 超参数调优：对每个算法的超参数使用网格搜索进行优化，并同时调整过采样策略以处理类别不平衡（损伤样本 vs. 非损伤样本）。 * 性能比较：使用单因素方差分析（ANOVA）及后续的事后t检验（包括单侧和双侧）来检验不同机器学习方法之间以及不同特征集之间性能的显著差异，并使用Benjamini–Hochberg程序控制错误发现率。
四、 主要研究结果
研究共收集了142名参与者的6181个有效周样本，记录了564次损伤事件。最常见的损伤部位是膝部（122例）、跟腱（76例）和髋部（73例）。
1. 模型性能总体比较： * 最佳性能模型：随机森林（Random Forest）模型在两种特征集下均取得了最佳的AUC性能（Class 1特征集：AUC = 0.781 ± 0.016；全部特征集：AUC = 0.784 ± 0.014）。其性能在单侧t检验中显著高于除AdaBoost（在Class 1特征集下）和逻辑回归（在全部特征集下）之外的大多数其他算法。 * 性能提升：当使用全部特征集（包含更多证据较弱的风险因子）进行训练时，大多数ML算法的AUC性能与仅使用Class 1特征集时相比保持不变。唯一的例外是逻辑回归，其性能在使用全部特征集时（AUC = 0.762 ± 0.019）相比仅用Class 1特征集时（AUC = 0.674 ± 0.034）有显著提升，从表现垫底的模型之一跃升至前三名。这一发现与直觉相悖，因为通常增加特征间的相互关联性会更有利于高灵活性的模型。 * 性能最差模型：贝叶斯网络（Bayesian Network）和朴素贝叶斯（Naïve Bayes）模型表现最差。贝叶斯网络在两种特征集下AUC均最低（约0.649）。朴素贝叶斯在全部特征集下性能略有提升（AUC = 0.698），但仍显著低于大多数其他方法。
2. 与既往研究的对比： 本研究的最佳AUC性能（0.784 ± 0.014）相较于既往专注于耐力跑RRI预测的机器学习研究（Lövdal等人：日预测AUC=0.724，周预测AUC=0.678）有中等程度的提升。与一项预测田径运动员周损伤的研究（最佳模型AUC=0.82）相比略低，但该研究参与者涵盖多种田径项目，且仅少数专攻长跑项目。值得注意的是，本研究的预测任务更具挑战性，因为参与者群体异质性更高（年龄范围14-50岁，竞技水平从郡级到国际精英级，跑步比赛距离和形式多样），这增加了建模的难度。
3. 新算法的表现： 本研究引入的两种新算法——时间序列神经网络（TSNN）和时间序列图神经网络（TSGNN），在性能上并未显著优于随机森林等传统集成树方法。论文指出，由于这两种是尚未进行充分计算优化的新设计模型，其实际测试迭代次数严重受限，且一些超参数为固定设置，这可能导致其未能发挥全部潜力。
五、 研究结论与价值意义
本研究成功创建了一个全面的、多学科的机器学习就绪数据集，并比较了多种算法在预测耐力跑者RRI方面的性能。主要结论如下： 1. 随机森林在此类多因素、前瞻性的运动损伤预测任务中表现出结构上的优势，是未来研究可优先考虑的算法。 2. 数据与模型的交互关系复杂：模型性能取决于多种因素。本研究发现，简单的逻辑回归模型在引入更多特征后性能显著提升，而更复杂的模型则未显示出同等改善。这表明在某些情况下，数据结构和特征间的直接关联性对简单模型更有利，同时提示一些当前证据较弱的候选特征（Class 2/3）可能本身就是RRI的强预测因子，值得进一步研究。 3. 方法论框架：本研究提供了一个透明、详细、可复现的方法论框架，包括基于证据的风险因子分类、全面的数据采集协议、严格的数据预处理流程以及系统的机器学习模型比较方法。这为未来利用ML进行运动损伤预测研究树立了标杆。
科学价值：本研究首次将遗传标记物与其他多学科风险因素相结合用于RRI预测，推动了该领域从单一维度分析向系统性、多维度整合分析的发展。它深入揭示了数据结构（如特征数量、特征间关系）与不同机器学习模型适用性之间的微妙相互作用。 应用价值：本研究的长期目标是开发一个决策支持工具（如移动应用程序），为跑者提供个性化的RRI风险评估和训练建议。研究框架和数据采集方法为未来开发此类工具奠定了基础。然而，论文也明确指出，由于样本量（参与者n=142）相对有限且缺乏外部验证，当前模型尚未准备好用于临床或商业应用。
六、 研究亮点
多学科风险因素整合：这是首个在耐力跑RRI预测研究中系统整合遗传学、肌肉力量、生物力学、营养、身体成分、人体测量学和训练等多领域风险因素的研究，构建了目前最全面的预测特征集。
系统的机器学习算法比较：研究并未局限于应用一两种模型，而是系统地比较了从简单到复杂、从传统到新颖的十余种机器学习算法，为不同算法在此类任务上的表现提供了实证依据。
提出并测试了新算法：研究设计并尝试应用了两种针对预后建模特点（时间序列性）的新型神经网络架构（TSNN和TSGNN），体现了方法学上的创新探索。
透明与可复现性：研究详细报告了方法、数据（处理后的数据在补充材料中共享）和代码（通过GitHub公开），极大地促进了研究的可复现性和未来进行更大规模数据聚合分析的潜力。
对“简单模型”价值的再认识：研究结果挑战了“模型越复杂性能越好”的刻板印象，展示了逻辑回归在特定数据结构下的竞争力，强调了根据具体数据特性选择模型的重要性。
七、 其他有价值的内容
局限性讨论：论文对研究的局限性进行了坦诚而深入的讨论，主要包括：缺乏外部验证，限制了模型的普适性；参与者数量（n=142）虽已是以往研究的两倍，但仍不足以充分捕捉目标人群的巨大异质性；可能存在选择偏倚（如易受伤跑者更倾向于参与研究）和幸存者偏倚；部分数据（如营养）的时间分辨率较低；不同算法的计算负载差异可能影响超参数调优的充分性，从而对比较结果产生偏差；特征选择在交叉验证前在整个数据集上进行，存在数据泄露和过拟合的风险。
未来研究方向：论文提出了清晰的未来路径：进行更大规模的数据收集以实现外部验证和聚合分析；开展随机对照试验（RCTs）以验证基于机器学习的反馈能否有效降低RRI发生率；整合可穿戴设备、基于图像识别的营养评估等新兴技术以提升数据收集的便捷性和时间分辨率；应用特征重要性分析（如SHAP）来解释训练好的模型，并与传统统计方法进行比较；在特征工程层面进一步探索纵向数据；应用因果推断方法来探究可改变的风险因素（如肌肉力量）对个体RRI风险的影响。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问