基于数据层面的不平衡医疗数据处理——以辅助生殖数据为例

分享自：

基于数据层面的不平衡医疗数据处理——以辅助生殖数据为例

妇产科学

公共卫生

期刊:biodata miningDOI:10.1186/s13040-024-00384-y

【点击此处】阅读全文、收藏及针对性提问

（根据文档内容判断属于类型a，生成学术报告如下）
《Biodata Mining》期刊2024年研究论文学术报告
 作者及机构：
 第一作者Junliang Zhu与通讯作者Hongbo Liu（邮箱hbliu@cmu.edu）来自中国医科大学公共卫生学院卫生统计系（Department of Health Statistics, China Medical University），合作单位包括江西省妇幼保健院生殖医学中心。论文发表于《Biodata Mining》2024年第17卷。
学术背景研究领域：医学数据挖掘中的类别不平衡问题。
 研究动机：医学数据常因罕见病例采样困难导致类别不平衡（如恶性肿瘤、心血管疾病预测），传统逻辑回归模型（logistic regression）在极端不平衡数据（阳性率%）下性能显著下降。
 科学问题：
 1. 量化不平衡程度（阳性率）和样本量对模型性能的影响
 2. 确定最优阳性率与样本量临界值
 3. 评估不同不平衡数据处理方法（如SMOTE、ADASYN）在小样本低阳性率场景下的效果
研究流程与方法1. 数据来源与预处理数据来源：2015–2020年江西省妇幼保健院17,860例辅助生殖治疗患者记录，覆盖45个变量（基础信息、不孕因素、生化指标等）。
 
预处理：删除非特征变量（如病例编号），处理缺失值与异常值，离散变量数值编码。
 
变量筛选：采用随机森林（Random Forest）评估变量重要性，基于Mean Decrease Accuracy（MDA）和Mean Decrease Gini（MDG）筛选出15个关键变量（如母亲年龄、胚胎移植数量）。
 
2. 数据集构建不平衡程度实验：通过随机采样构建阳性率1%–40%的10组数据集（每组样本量固定2000例），重复100次以减少随机误差。
 
样本量实验：固定阳性率15%，构建样本量500–5000的9组数据集。
 
小样本低阳性率实验：结合最优临界值（阳性率15%、样本量1500），测试4种不平衡处理方法（SMOTE、ADASYN过采样；OSS、CNN欠采样）。
 
3. 模型与评估分类模型：逻辑回归模型（因变量为活产结局），训练集与测试集按7:3划分。
 
评估指标：AUC、G-mean、F1-score、准确率、召回率、精确率。
 
创新方法：
 SMOTE过采样：通过线性插值合成少数类样本，避免过拟合。
 
ADASYN过采样：根据样本学习难度动态调整合成数量。
 
CNN欠采样：删除远离分类决策面的多数类冗余样本。
 
主要结果1. 不平衡程度的影响临界值发现：当阳性率<10%时，模型性能（AUC、G-mean）显著下降；≥15%后趋于稳定（图1）。例如：
 阳性率1%时AUC均值0.65（标准差±0.12），15%时提升至0.89（±0.03）。
 
F1-score在阳性率<10%时波动剧烈，因少数类样本过少导致预测不稳定。
 
2. 样本量的影响稳定性阈值：样本量<1200时性能波动大（AUC CV>4.5%），≥1500后稳定（CV<3.7%）。例如：
 样本量500时AUC均值0.72（±0.18），1500时达0.88（±0.04）。
 
3. 不平衡处理方法对比过采样优势：SMOTE与ADASYN显著提升G-mean（低阳性率下提升40%–60%），优于欠采样（图4）。
 
局限性：OSS欠采样因保留安全样本，性能改善有限（F1-score仅提高8%）。
 
结论与价值科学结论：
 1. 逻辑回归模型的稳定性临界值为阳性率15%、样本量1500。
 2. 对阳性率<10%或样本量<1200的数据，推荐SMOTE或ADASYN过采样。
应用价值：
 - 为医学不平衡数据（如罕见病预测）提供标准化处理流程。
 - 避免直接应用逻辑回归导致的偏差，提升临床决策可靠性。
方法论创新：
 - 首次通过实证确定医学数据不平衡的临界阈值。
 - 结合随机森林变量筛选与动态采样方法，优化模型可解释性。
研究亮点临界值发现：通过大规模重复实验（每组100次采样）确立阳性率与样本量的普适阈值。
 
方法学对比：系统验证过采样在小样本场景的优越性，挑战了传统欠采样主导观点。
 
临床适用性：以辅助生殖数据为例，结论可推广至其他医学不平衡数据（如肿瘤早期诊断）。
 
局限与展望：
 - 未涵盖其他分类模型（如支持向量机）。
 - 未来需验证临界值在其他病种（如癌症）的泛化性。
（报告字数：约1500字）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问