分享自:

基于模型预测解释的置信度估计

期刊:2023 International Conference on Neuromorphic Computing (ICNC)

机器学习预测置信度估计的新方法:基于模型解释的ExConfidNet

该研究由南方科技大学的Kaiyue Wu、Changwu Huang和Xin Yao团队完成,发表于2023年国际神经形态计算会议(ICNC)。作者均来自广东省脑启发智能计算重点实验室和南方科技大学可信自主系统研究院。论文标题为《confidence estimation based on the explanations of model’s predictions》,提出了一种名为ExConfidNet的新型置信度估计方法。

学术背景与研究动机

在医疗诊断、自动驾驶等高风险应用场景中,机器学习模型的错误预测可能导致严重后果。现有置信度估计方法(如最大类别概率MCP)大多依赖模型内部信息(如梯度、隐层表示或训练检查点),存在安全隐患且应用范围有限。

针对这一问题,研究团队提出基于模型解释的置信度估计框架,以真实类别概率(True Class Probability, TCP)作为置信度标准。与需要模型内部信息的ConfidNet不同,ExConfidNet仅利用模型预测的解释(通过SHAP值实现)和训练数据,实现了对黑盒模型的普适性支持。该研究旨在:
1. 开发不依赖模型内部信息的置信度估计方法
2. 通过解释性分析提升错误样本检测能力
3. 验证方法在不同数据集、模型架构和非独立同分布(non-IID)数据上的鲁棒性

研究方法与技术路线

核心工作流程

1. 置信度标准构建

选择真实类别概率(TCP)而非传统MCP作为置信度标准。TCP定义为模型对样本真实类别的预测概率,实验证明其能更好区分正确与错误预测(ConfidNet已验证)。关键公式:

TCP(x,y) = p(y=y|x,w) # 真实类别的预测概率 MCP(x) = max p(y=k|x,w) # 最大类别概率 

2. 基于SHAP的解释特征构建

  • 使用SHAP(SHapley Additive exPlanations)解释模型预测,计算每个特征对预测类别的贡献度
  • 仅保留预测类别的SHAP值(而非全类别),形成特征-解释联合向量
    x' = [x, SHAP(x)] # 原始特征与SHAP值的拼接
  • 在训练阶段利用真实标签计算TCP作为监督信号

3. ExConfidNet模型训练

  • 网络架构:多层感知机(MLP)回归模型
  • 输入:2d维联合向量(d为原始特征维度)
  • 输出:预测的TCP值
  • 损失函数:均方误差(MSE)
    L(θ) = 1/n Σ(g(x'i;θ) - TCP(xi,yi))²
  • 训练完成后,对新样本只需计算其SHAP解释并输入ExConfidNet即可获得置信度估计

实验设计

研究设计了三类实验验证方法有效性:

实验1:跨数据集验证

  • 数据集:7个二分类数据集(6个真实数据集:Adult、Bank、Credit等 + 1个合成数据集)
  • 评估指标
    • AUROC(正确/错误预测的区分能力)
    • AUPR-success(正确样本检测能力)
    • AUPR-error(关键指标:错误样本检测能力)

实验2:跨模型架构验证

  • 预测模型类型
    • 不同准确率的神经网络(65%、73%、83%)
    • 不同模型家族(Naive Bayes、Logistic Regression、Random Forest)

实验3:非IID数据验证

  • 通过改变合成数据集的协方差矩阵模拟分布偏移
  • 设置三个测试集:D1(IID)、D2/D3(递增的分布偏移)

主要研究结果

1. 跨数据集性能对比

在AUPR-error指标上(关键错误检测能力):
- ExConfidNet在7个数据集中6次优于Trust Score
- 全部超越MCP和ConfidNet
- 在Adult数据集上达到47.38%(较ConfidNet提升3.1%)

具体数据:
| 数据集 | ExConfidnet | Confidnet | Trust Score | MCP |
|———–|————-|———–|————-|—–|
| Adult | **47.38

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com