本文的主要作者包括杨蓉、方斌、郑玲玲、陈锦华和周文娟,分别隶属于福建医科大学附属协和医院随访中心、福州至臻医疗科技有限公司、福建医科大学附属协和医院公共卫生预防保健处及检验科等机构。通讯作者为郑玲玲,电子邮箱为zhenglingling86@fjmu.edu.cn。该研究发表在《肿瘤防治研究》期刊的2024年第51卷第12期(Cancer Research and Prevention, 2024, vol. 51, no. 12)。
肝癌是全球常见的恶性肿瘤之一,中国肝癌的发病率和死亡率在全球占比极高,成为严重威胁人民健康的重要问题。流行病学数据显示,慢性丙型肝炎(Chronic Hepatitis C,简称慢丙肝)是导致肝癌的重要病因之一。然而,由于慢丙肝病情隐匿,部分患者在确诊时已发展为中晚期肝癌,从而对患者预后产生极大影响。面对这一临床挑战,亟需探索慢丙肝进展为肝癌的相关风险因素,从病因学上降低疾病进展的可能性,同时为提高肝癌早期诊断率寻找新方法。
近年来,机器学习算法因其强大的数据处理能力广泛应用于医学领域,为风险预测和疾病诊断提供了重要的技术支持。然而,当前的大部分研究集中在慢性乙型肝炎(HBV,Hepatitis B Virus)相关肝癌上,针对慢丙肝患者肝癌风险的研究较少。基于此,本文通过构建多种机器学习预测模型,筛选出最优模型,并基于SHAP(Shapley Additive Explanations)算法解析模型决策,以期为慢丙肝患者的个性化风险预测和早期干预提供科学参考。
研究选择了2016年1月至2023年12月在福建医科大学附属协和医院确诊的236例慢丙肝患者。按照是否发生原发性肝癌,将患者分为病例组与对照组。纳入标准包括明确诊断为慢丙肝并且资料信息完整;排除标准包括合并其他类型肝炎病毒感染或患有转移性肝癌和相关癌症手术史的患者。本研究获得相关伦理委员会批准。
研究系统全面地收集了患者的基本资料,包括性别、年龄、现住址、BMI等基本信息;生活习惯(如吸烟史、饮酒史);临床特征如既往病史和诊疗信息;实验室指标,如AFP(甲胎蛋白)、ALT(谷丙转氨酶)、AST(谷草转氨酶)、PLT(血小板计数),以及计算衍生指标如APRI(谷草转氨酶与血小板比值,Aspartate Aminotransferase-to-Platelet Ratio Index)和FIB-4(纤维化指数-4,Fibrosis 4 Index)。
研究采用了七种机器学习算法构建预测模型: - 分类与回归决策树(CART, Classification And Regression Tree) - 随机森林(RF, Random Forest) - 梯度提升决策树(GBDT, Gradient Boosting Decision Tree) - 极端梯度提升(XGBoost, Extreme Gradient Boosting) - 逻辑回归(Logistic Regression, LR) - K近邻(K-Nearest Neighbor, KNN) - 支持向量机(SVM, Support Vector Machine)
所有模型均采用完全随机取样的方式,将全部样本按3:1的比例分为训练集和测试集,并使用5折交叉验证评估模型性能。每种模型的性能评价指标包括准确率、敏感度、特异度、ROC曲线下面积(AUC)以及F1分数。
所有预测模型的输出均通过SHAP算法进行解释,从模型全局和个体角度理解各变量对模型预测的贡献情况,同时基于K-means聚类分析进一步分类患者样本,识别高风险亚组。
病例组与对照组在性别、年龄、现住址、肝囊肿、AFP、ALT、AST、APRI、FIB-4上存在显著统计学差异(P<0.05)。具体而言,男性、年龄较大、AFP、AST和ALT水平较高,以及具有肝囊肿的患者更容易发生肝癌。
在七种机器学习算法中,XGBoost模型表现最佳: - 准确率:0.933 - 敏感度:0.775 - 特异度:0.960 - AUC:0.956 - F1分数:0.764
其他模型中,随机森林和梯度提升决策树亦展现了较高的预测性能,但均次于XGBoost。
通过SHAP算法的全局解释,XGBoost模型的前十位重要特征依次为AFP、年龄、AST、糖尿病、BMI、PLT、ALT、肝囊肿、FIB-4和性别。具体分析显示: - AFP、AST、ALT、FIB-4水平越高,患者发生肝癌的可能性越大; - 男性、年龄较大、BMI异常的患者风险更高; - 合并糖尿病或肝囊肿进一步增加风险。
基于K-means聚类分析,患者被划分为四个亚组: - 高AFP为主要特征的高风险亚组; - 以高龄和糖尿病为主要特征的高风险亚组; - 低AFP为特征的低风险亚组; - 低龄、低AFP为特征的低风险亚组。
本文构建了一种基于XGBoost算法的可解释性肝癌风险预测模型。研究表明,将AFP、AST、ALT、FIB-4等变量与患者基础特征结合,可以有效评估慢丙肝患者的肝癌风险,从而为个性化监测和早期干预提供科学支持。该研究模型在慢丙肝群体肝癌风险预测方面具有较高的准确性与鲁棒性。
从医学应用角度来看,该模型可用于辅助临床医生识别高危患者,优化医疗资源分配,促进肝癌的早诊断和早治疗,从而改善疾病预后。
本文存在样本量较小的限制,未来研究可引入大样本量独立队列验证模型适用性。此外,将图像、病理及基因数据结合到模型中,构建多模态预测模型,将对提高模型性能具有重要意义。
本研究为慢丙肝相关肝癌风险预测提供了全新的机器学习解决方案。结合模型的高精确性和可解释性,其在实际临床应用中潜力巨大,对实现精准医疗和改进患者预后具有重要意义。