Asyco: 一种用于部分标注学习的非对称双任务共训练模型
深度学习中非对称双任务协同模型改进部分标签学习的研究
研究背景
在深度学习领域,监督学习已成为众多人工智能任务的核心方法。然而,训练深度神经网络需要大量准确标注的数据,而这类数据的构建往往成本高昂且耗时。弱监督学习(Weakly Supervised Learning)作为一种有效的替代方法近年来引起了广泛关注,其中部分标签学习(Partial Label Learning, PLL)是弱监督学习的一种典型问题。它假定每个训练实例被一个候选标签集(Candidate Label Set)标注,该标签集中包含真实标签和若干错误标签。由于候选标签中存在标签歧义问题,部分标签学习成为一个充满挑战的领域。
在部分标签学习的研究中,一个关键目标是消解这种标签歧义,正确识别每个样本的真实标签。以往的方法包括基于最大间隔的算法、图模型、期望-最大算法、对比学习和一致性正则化等。然而,这些方法多基于经典机器学习模型,处理大规模数据时表现受到明显限制。
最新的研究表明,基于自训练(Self-Training)的深度模型是解决部分标签学习问题的有效途径。此类方法通过迭代学习样本的标签置信度,通过置信度优化模型。然而,自训练模型存在错误累积问题,即误判的标签会进一步误导模型,从而导致性能下降。尽管协同训练(Co-training)策略被广泛应用于处理噪声标签学习问题,但当前大多数协同训练方法采用对称设计,即两个型号结构相同的网络训练方式。这会使它们共享相似的局限性,难以进行有效的互相纠正。
鉴于此,来自Chongqing University、中国科学院软件研究所、Zhejiang University和Nanyang Technological University的研究者提出了一种名为ASYCO的非对称双任务协同部分标签学习模型,以克服对称协同学习的局限性并改进部分标签学习的性能。
论文来源
这项研究以研究论文的形式发表在《Science China Information Sciences》的2025年5月刊(第68卷,第5期),文章标题为《ASYCO: An Asymmetric Dual-Task Co-Training Model for Partial-Label Learning》。论文的主要作者包括Beibei Li、Yiyuan Zheng、Beihong Jin、Tao Xiang、Haobo Wang和Lei Feng,分别来自重庆大学、中国科学院软件研究所、中国科学技术大学、新加坡南洋理工大学等单位。
研究工作流程
a) 研究设计与流程
ASYCO模型的核心设计是非对称协同训练框架,包含两个结构相同但任务不同的网络:一个消歧网络(Disambiguation Network)和一个辅助网络(Auxiliary Network)。整个研究分为以下几个步骤:
消歧网络的构建与训练:
- 消歧网络的主要任务是解决标签歧义,通过学习置信度向量对候选标签集中的真实标签进行判定。
- 消歧网络使用基于部分标签学习的损失函数,包括分类器一致性损失(Classifier-Consistent Loss, CC Loss)和风险一致性损失(Risk-Consistent Loss, RC Loss)。
- 通过数据增强技术(Data Augmentation),如Autoaugment和Cutout扩展样本数据,以提升模型的泛化能力。
辅助网络的构建与训练:
- 辅助网络利用消歧网络生成的伪标签(Pseudo Class Labels),构造低噪声的对比标签(Pairwise Similarity Labels)。
- 根据一对样本是否属于同一类别生成0或1的对比标签,并通过监督学习训练辅助网络以捕捉样本间的关系。
错误校正模块的设计:
- 辅助网络通过信息蒸馏(Information Distillation)和置信度优化两种策略帮助消歧网络减轻错误累积问题。
- 具体包括:通过KL散度约束消歧网络和辅助网络的预测分布接近;同时,通过辅助网络计算的置信度向量对消歧网络的置信度进行动态优化。
整体模型的训练与推理:
- 训练初期,先单独训练消歧网络,后利用其参数初始化辅助网络并启动协同训练。
- 在推理阶段,使用训练后的消歧网络或辅助网络进行单独预测,以减小推理时间开销。
b) 研究方法中创新技术和设计
ASYCO的关键创新点在于其非对称设计。相比对称协同学习模型,ASYCO通过不同的任务设置逼迫两个网络从不同视角进行学习,实现了功能上的互补性。具体创新包括: 1. 辅助网络中的标签转换策略:通过将伪标签转化为对比标签,有效降低了训练数据中的噪声率。 2. 误差修正策略:通过信息蒸馏和置信度优化实现了两网络的互动和误差修正。 3. 数据增强和温度参数定制:优化了样本间变异的表征和置信度的表示。
c) 数据集与实验验证
研究团队在多个公开数据集(如SVHN、CIFAR-10、CIFAR-100和CNAE-9)和一个真实世界数据集Birdsong上进行了详尽实验。实验中引入了两个标签生成流程:均匀分布(Uniform Process)和实例相关生成(Instance-Dependent Process),以验证模型在不同标签噪声水平下的性能表现。
实验结果与核心发现
1. 性能对比
实验结果表明,ASYCO模型在所有测试数据集上均表现优异,其在不同噪声水平下的准确率显著高于现有的方法。例如: - 在CIFAR-10上的准确率从q=0.1到q=0.7,ASYCO的表现超越了最优对比方法约0.361%至1.694%。
2. 不同协同训练设计的对比
实验还验证了非对称协同设计的有效性。与对称设计的变体SyCo相比,ASYCO在多个场景下准确率提高显著(约0.607%-0.955%)。
3. 错误校正策略的效果
研究发现,信息蒸馏和置信度优化均对模型性能贡献显著,缺失任何一个策略都会导致一定程度的准确率下降。
4. 辅助网络中的标签处理
通过构造对比标签,有效降低了原始伪标签中的噪声率,使得辅助网络的训练更稳定。
结论与价值
ASYCO模型通过引入非对称双任务协同策略解决了部分标签学习中的错误累积问题,其实验结果和理论分析充分证明了这种新颖设计的有效性。模型的主要贡献包括: - 改进了部分标签学习的预测性能,特别是在高噪声条件下。 - 提供了一种新的协同学习框架,开拓了部分标签学习领域的新方向。 - 在理论研究和实际应用中均显示出较大的潜力,例如图像标注和多媒体内容分析。
尽管ASYCO在性能上令人瞩目,但其训练阶段需要较高的空间和时间消耗。在未来的工作中,研究团队将进一步优化协同架构和网络交互机制,以降低训练成本并挖掘其潜在应用领域。