分享自:

置信学习:数据集中标签不确定性的估计

期刊:Journal of Artificial Intelligence Research

本文档介绍了一项由麻省理工学院(Massachusetts Institute of Technology)电气工程与计算机科学系(Department of EECS)的Curtis G. Northcutt和Isaac L. Chuang,以及谷歌研究院(Google Research)的Lu Jiang共同完成的研究。该研究成果以论文形式发表于《Journal of Artificial Intelligence Research (JAIR)》。论文标题为《Confident Learning: Estimating Uncertainty in Dataset Labels》,其核心是提出了一种名为“置信学习”(Confident Learning, CL)的数据中心化(data-centric)新方法,用于系统性地评估、识别和校正数据集中的标签错误。

这项研究的学术背景源于机器学习领域长期面临的一个基础性挑战:如何在带有噪声标签的数据中进行有效学习。随着大规模数据集(如ImageNet、MS-COCO)以及医疗、教育等现实世界数据集的广泛应用,标签噪声(即数据标注错误)的存在已成为影响模型性能的关键问题。传统方法大多属于模型中心化(model-centric)范式,即通过设计新的模型架构或损失函数(如噪声鲁棒性损失、损失重加权)来试图“容忍”噪声。然而,这些方法往往回避了一个更根本的问题:哪些数据被错误标注了?置信学习则转换思路,从数据本身出发,旨在直接表征标签的不确定性并找出错误标签,然后再用清洗后的数据训练模型,这是一种更直接的数据中心化路径。研究基于一个广泛使用的合理假设:标签噪声是类条件性的(class-conditional),即一个样本被误标的概率仅依赖于其潜在的真实类别,而与样本特征本身无关(例如,一张“豹”的图片更可能被误标为“美洲虎”,而非“浴缸”)。在此假设下,研究的目标是直接估计噪声(给定)标签与潜在真实(未知)标签之间的联合分布。这一联合分布至关重要,因为它不仅能直接用于估算各类别间的标签错误数量,还能派生出噪声转移率、潜在先验分布等关键统计量,为数据清洗和带噪学习提供更精确的指导。

研究的详细工作流程包含三个核心步骤,并围绕一个名为“置信联合矩阵”(confident joint)的核心数据结构展开。整个流程的输入是:1)样本的袋外预测概率(例如通过交叉验证获得),以及2)对应的噪声标签。输出是清洗后的数据以及识别出的标签问题。

第一步:计数(Count)—— 利用置信联合矩阵表征和发现标签错误。 这是CL方法的核心。首先,算法为每个类别j计算一个置信阈值t_j,该阈值被定义为该类所有样本预测概率属于该类别的平均值(即“自置信度”的均值)。这个阈值设计巧妙,能自适应不同类别的概率分布差异和类别不平衡问题。然后,算法构建一个m×m(m为类别数)的置信联合矩阵C_ỹ,y∗。矩阵的每个元素C[i][j]的计数规则是:在所有给定标签为i的样本中,找出那些预测为类别j的概率p(ỹ=j; x) 大于等于该类别的阈值t_j的样本。如果某个样本同时对多个j满足条件(发生“碰撞”),则将其分配给预测概率最高的那个j。这样,矩阵对角线元素C[i][i]估计了标签正确的样本数,而非对角线元素C[i]j 则估计了标签为i但真实类别应为j的样本数。这个过程本质上是根据相对预测概率(是否超过类别自适应阈值)对样本进行“分桶”,而非依赖预测概率的绝对大小或简单的argmax操作,这增强了方法的鲁棒性。基于置信联合矩阵C_ỹ,y∗,研究进一步通过标准化(使每行和与观测到的噪声标签先验分布一致)来估计噪声标签与真实标签的联合概率分布矩阵Q̂_ỹ,y∗。该估计矩阵的边际和条件概率可以进一步推导出潜在的标签先验分布Q̂_y∗、噪声转移矩阵(误标概率)Q̂_ỹ|y∗等关键噪声表征。

第二步:排序与剪枝(Rank and Prune)—— 数据清洗。 在估计出联合分布和错误数量后,CL采用多种灵活的排序剪枝策略来具体识别并移除可能的标签错误,体现了其模块化优势。论文主要评估了五种方法:(1) CL基线(C_confusion):直接使用模型预测的argmax结果作为真实标签的估计,与原始标签不一致的即视为错误。这类似于单次迭代的INCV方法。(2) CL核心方法(C_ỹ,y∗):直接使用置信联合矩阵C_ỹ,y∗中所有非对角线元素对应的样本集合作为估计的标签错误。(3) 按类别剪枝(Prune by Class, PBC):对于每个类别i,根据估计的联合分布Q̂_ỹ,y∗,计算出该类中应被移除的错误样本总数(即所有i≠j的Q̂[i][j]之和),然后移除该类中自置信度最低的相应数量的样本。(4) 按噪声率剪枝(Prune by Noise Rate, PBNR):对于每一个具体的错误转移对(i, j)(i≠j),根据Q̂[i][j]估计出需要移除的样本数量,然后从标签为i的样本中,移除那些“预测为j的概率与预测为i的概率之差”(归一化边际)最大的相应数量的样本。(5) C+NR:PBC和PBNR方法结果的交集。

第三步:用清洗后的数据学习。 移除识别出的标签错误后,得到清洗后的数据集。为了补偿因移除数据而带来的类别数量变化,在训练时可以对每个类别的损失进行重加权,权重因子为潜在先验估计Q̂_y∗[i]除以联合分布中对角线元素Q̂[i][i]。值得注意的是,CL框架本身不规定具体的训练模型或损失函数,任何能输出概率预测的模型(如神经网络、逻辑回归等)都可用于生成CL的输入或用于最终在干净数据上的训练,这体现了其模型无关性。

研究的主要结果在多个标准数据集和任务上得到了验证,涵盖了图像(CIFAR, ImageNet, MNIST, WebVision)和文本(Amazon Reviews)不同模态。

首先,在带人工合成不对称标签噪声的CIFAR-10数据集上,CL在三个评估维度上均表现出色: 1. 联合分布估计:如图2所示,即使在噪声率高(40%)且稀疏性高(60%,即噪声主要集中在少数类别对之间)的困难设定下,CL估计的联合分布矩阵Q̂_ỹ,y∗与真实的Q_ỹ,y∗非常接近,均方根误差(RMSE)仅为0.004,显著优于简单的C_confusion基线。 2. 标签错误发现:如表4所示,多种CL方法在发现合成噪声标签的任务上,取得了较高的准确率、F1分数和召回率。特别是在高噪声情况下,基于概率排序的PBNR和C+NR方法表现稳健。 3. 带噪学习性能:如表2所示,CL方法在清洗数据后重新训练的模型,在CIFAR-10测试集上的准确率显著超越了七种近期先进的带噪学习方法,包括INCV、MixUp、MentorNet、Co-teaching等。一个关键发现是,CL方法对噪声的“稀疏性”具有鲁棒性。当噪声集中于少数类别间时(高稀疏性),许多模型中心化方法的性能会急剧下降,而CL方法(尤其是C_ỹ,y∗)的性能则保持稳定甚至略有提升。这表明直接建模和移除标签错误比让模型学习容忍复杂噪声模式更为有效。

其次,在真实世界数据集上发现并清洗标签错误: 1. ImageNet本体论发现与错误检测:研究将CL应用于ILSVRC 2012 ImageNet训练集。置信联合矩阵成功自动发现了数据集中存在的本体论问题,如表5所示,包括重复类别(如两个“maillot”类)、父子类关系(如“bathtub”与“tub”)、易混淆类别(如“projectile”与“missile”)等。此外,如图3所示,CL自动找出了许多标签问题样本,包括真正的标注错误、多标签图像以及本体论模糊的图像。人工验证随机500个CL识别的问题,其中58%确实存在问题。 2. 用清洗后的ImageNet数据训练提升模型性能:如图4和图5所示,在训练前移除不同比例(20%至100%)由CL识别出的问题样本,然后从头训练ResNet-18和ResNet-50。结果发现,与随机移除同等数量样本的基线相比,移除CL识别的问题样本能在大多数情况下维持甚至略微提升模型在整个验证集以及噪声最严重的子类上的分类准确率。尤其值得注意的是,对于已知存在错误的“maillot”类,移除CL识别的问题样本能显著提升模型在该类上的识别准确率。这证明了数据清洗对于提升模型性能,特别是在存在系统性标注问题的类别上的有效性。 3. 在文本数据(Amazon Reviews)上的应用:研究还在极度类别不平衡(1星、3星、5星评价数量差异巨大)的亚马逊评论数据集上应用CL,使用简单的逻辑回归模型生成预测概率。如表6所示,CL成功识别出了许多看似矛盾的评论(如文字消极但给了5星)。更重要的是,如表7所示,使用CL清洗后的数据训练模型,其测试准确率 consistently 高于直接在原始噪声数据上训练的基线模型。特别是在训练轮数增加时,基线模型因过拟合噪声而性能下降,而使用CL清洗数据的模型性能持续提升,凸显了数据清洗对于防止过拟合噪声的重要性。

研究的结论是,置信学习(CL)作为一个通用的、模型无关的理论与算法框架,为处理带噪标签问题提供了一种强大且实用的数据中心化解决方案。其核心价值在于将关注点从修改模型转向理解和清洗数据本身。CL不仅能够准确估计标签噪声的联合分布,还能高效地识别出数据集中各种类型的标签问题(包括错误、多标签、本体论问题),并利用清洗后的数据有效提升模型性能。

本研究的亮点包括: 1. 范式创新:明确提出并系统化了一种数据中心化的“置信学习”范式,与主流模型中心化方法形成鲜明对比。 2. 理论坚实:论文提供了严格的理论分析(定理1和定理2),证明了在较宽松的实用条件下(允许预测概率存在每样本、每类别的误差),CL能够确切地找到标签错误并一致地估计联合分布。这为方法的有效性提供了理论保证。 3. 方法鲁棒:提出的置信联合矩阵及自适应阈值技术,对类别不平衡、预测概率分布异质性、模型过度自信等问题具有内在的鲁棒性。 4. 通用性强:框架与模型、数据模态均无关,在图像(CIFAR, ImageNet, MNIST)和文本(Amazon Reviews)数据上均验证有效,并支持多种排序剪枝策略。 5. 实用价值高:开源了cleanlab软件包,使研究成果易于复现和应用,促进了数据清洗和带噪学习领域的研究与实践。研究首次系统性地在大规模真实数据集(如ImageNet)上自动发现并量化了标签问题,为数据集管理和评估提供了新工具。 6. 性能卓越:在标准基准测试中,其性能超越了多种前沿的带噪学习方法,尤其是在具有挑战性的高噪声、高稀疏性场景下优势明显。

这项研究通过创新的置信学习方法,在数据质量评估与提升方面做出了重要贡献,为构建更可靠、更高效的机器学习系统提供了从数据源头入手的关键技术。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com