分享自:

从解释到特征选择:评估SHAP值作为特征选择机制

期刊:2020 33rd SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI)DOI:10.1109/SIBGRAPI51738.2020.00053

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于SHAP值的特征选择机制评估研究

作者及机构
本研究由São Paulo State University(圣保罗州立大学)数学与计算机科学系的Wilson E. Marcílio-Jr和Danilo M. Eler合作完成,发表于2020年的《33rd SIBGRAPI Conference on Graphics, Patterns and Images》会议论文集,DOI编号为10.1109/SIBGRAPI51738.2020.00053。

学术背景
研究领域为机器学习中的特征选择(Feature Selection)与模型可解释性(Model Explainability)。随着高维数据集的普及,传统特征选择方法面临两大挑战:
1. 维度灾难(Curse of Dimensionality):高维数据冗余性增加,可能降低模型性能;
2. 可解释性缺失:现有方法(如过滤法Filter、包装法Wrapper、嵌入法Embedded)难以向用户(如医疗领域从业者)解释特征剔除的合理性。

研究团队提出将SHAP(Shapley Additive Explanations)值——一种基于博弈论的模型无关解释方法——转化为特征选择机制,旨在实现以下目标:
- 在保留模型解释能力的同时,提升特征选择性能;
- 为机器学习流程的预处理步骤提供可解释性支持。

研究流程与方法
1. SHAP值计算与特征排序
- 数据对象:8个公开数据集(5分类+3回归任务),样本量从178(Wine)至9932(NHANESI)不等。
- 模型选择:采用XGBoost(极端梯度提升树)作为基础模型,超参数通过网格搜索优化。
- SHAP值生成:使用专为树模型优化的TreeSHAP算法,计算每个特征对模型预测的贡献值(SHAP值),避免模型无关版本(KernelSHAP)的计算复杂度问题。
- 特征重要性排序:对每个类别的SHAP值矩阵(n×m)按列求均值,合并所有类别的均值向量后按绝对值降序排列,生成全局特征重要性排名。

  1. 对比实验设计

    • 对照组:选择三种主流特征选择方法——互信息(Mutual Information)、递归特征消除(RFE, Recursive Feature Elimination)和ANOVA(方差分析)。
    • 评估指标:采用“Keep Absolute”度量,通过逐步保留Top d%特征(其余特征用列均值填充),计算模型在5折交叉验证下的性能曲线下面积(AUC)。分类任务使用F1分数,回归任务使用负均方误差(Negative MSE)。
  2. 性能与效率验证

    • 硬件环境:Intel i7-8700 CPU, 32GB RAM。
    • 运行时间记录:对比各方法在特征选择阶段的耗时,分析计算效率与数据规模、模型深度的关系。

主要结果
1. 分类任务优势
- 在5个分类数据集中,SHAP特征选择在4个数据集(Indian Liver Disease、Heart Disease、Wine、Breast Cancer)上取得最高AUC(如Breast Cancer的AUC=0.963747,显著高于ANOVA的0.950952)。
- 关键发现:SHAP对中间比例特征(20%-50%)的选择尤其有效。例如,在Vertebral数据集(图4d)中,SHAP在20%-50%区间内的F1分数稳定高于其他方法,表明其能更精准识别对多类别均衡贡献的特征。

  1. 回归任务权衡

    • 在Boston数据集上,SHAP的AUC(-3.460678)略逊于ANOVA(-3.442648),但实验显示保留40%-80%特征时性能更优(图6)。作者指出,这种微小精度损失在医疗等需解释性的场景中是可接受的。
  2. 计算效率分析

    • TreeSHAP的运行时间与树模型深度强相关(表V)。例如,Boston数据集(max_depth=10)耗时10894ms,而NHANESI(max_depth=3)仅需62ms。
    • 对比RFE(如Breast Cancer耗时132937ms),SHAP效率显著提升,但仍慢于过滤式方法(ANOVA仅需1ms)。
  3. 可解释性案例

    • 以Vertebral数据集为例(图5),SHAP值明确显示“degree of spondylolisthesis”(脊椎滑脱程度)是判断脊柱疾病的最关键特征,其高SHAP值与医学文献[39]中“骨盆入射角(pelvic incidence)与骶骨斜率(sacral slope)增大”的结论一致,验证了方法的临床合理性。

结论与价值
1. 科学价值
- 首次系统评估SHAP作为特征选择机制的可行性,证明其兼具解释性与性能优势。
- 提出基于局部解释(Local Explanation)构建全局特征重要性的方法论,为可解释机器学习(Explainable AI)提供新思路。

  1. 应用价值

研究亮点
1. 方法创新:将SHAP的解释属性转化为特征选择标准,突破传统方法仅依赖统计指标或模型精度的局限。
2. 实验设计:通过“Keep Absolute”度量动态评估特征子集性能,更贴近实际应用场景。
3. 跨领域验证:在分类与回归任务、不同规模数据集上均验证方法的普适性。

其他贡献
- 指出KernelSHAP的计算瓶颈,建议在高维数据中先通过相关性预筛选特征。
- 讨论SHAP与LIME等其他解释方法的兼容性,强调SHAP的数学保证(如Shapley值的博弈论基础)是其优势所在。


(注:报告共约1800字,完整覆盖研究背景、方法、结果与价值,符合学术报告规范。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com