该研究由南方科技大学的Kaiyue Wu、Changwu Huang和Xin Yao团队完成,发表于2023年国际神经形态计算会议(ICNC)。作者均来自广东省脑启发智能计算重点实验室和南方科技大学可信自主系统研究院。论文标题为《confidence estimation based on the explanations of model’s predictions》,提出了一种名为ExConfidNet的新型置信度估计方法。
在医疗诊断、自动驾驶等高风险应用场景中,机器学习模型的错误预测可能导致严重后果。现有置信度估计方法(如最大类别概率MCP)大多依赖模型内部信息(如梯度、隐层表示或训练检查点),存在安全隐患且应用范围有限。
针对这一问题,研究团队提出基于模型解释的置信度估计框架,以真实类别概率(True Class Probability, TCP)作为置信度标准。与需要模型内部信息的ConfidNet不同,ExConfidNet仅利用模型预测的解释(通过SHAP值实现)和训练数据,实现了对黑盒模型的普适性支持。该研究旨在:
1. 开发不依赖模型内部信息的置信度估计方法
2. 通过解释性分析提升错误样本检测能力
3. 验证方法在不同数据集、模型架构和非独立同分布(non-IID)数据上的鲁棒性
选择真实类别概率(TCP)而非传统MCP作为置信度标准。TCP定义为模型对样本真实类别的预测概率,实验证明其能更好区分正确与错误预测(ConfidNet已验证)。关键公式:
TCP(x,y) = p(y=y|x,w) # 真实类别的预测概率 MCP(x) = max p(y=k|x,w) # 最大类别概率 x' = [x, SHAP(x)] # 原始特征与SHAP值的拼接 L(θ) = 1/n Σ(g(x'i;θ) - TCP(xi,yi))² 研究设计了三类实验验证方法有效性:
在AUPR-error指标上(关键错误检测能力):
- ExConfidNet在7个数据集中6次优于Trust Score
- 全部超越MCP和ConfidNet
- 在Adult数据集上达到47.38%(较ConfidNet提升3.1%)
具体数据:
| 数据集 | ExConfidnet | Confidnet | Trust Score | MCP |
|———–|————-|———–|————-|—–|
| Adult | **47.38