这篇文档属于类型a(单一原创研究报告),以下是详细的学术报告:
本研究由Yu Duan、Junzhi He、Runxin Zhang、Rong Wang、Xuelong Li和Feiping Nie合作完成,作者单位均来自中国西北工业大学计算机学院、人工智能学院及智能交互与应用教育部重点实验室。研究成果发表于期刊Information Fusion第112卷(2024年),文章标题为《Prediction Consistency Regularization for Generalized Category Discovery》,DOI编号为10.1016/j.inffus.2024.102547。
研究属于开放世界半监督学习(Open-World Semi-Supervised Learning)领域,聚焦于广义类别发现(Generalized Category Discovery, GCD)问题。传统半监督学习(SSL)假设未标注数据仅包含已知类别,而实际场景中未标注数据常同时包含已知和未知类别。GCD旨在利用部分标注数据(已知类别)自动发现并聚类未标注数据中的新类别。
现有GCD方法分为两类:
1. 基于表征学习的方法:通过对比学习获取特征后聚类,但忽略细粒度语义信息;
2. 联合优化分类器的方法:直接训练线性分类器,但易受监督信息过拟合影响,难以发现新类别。
本研究提出预测一致性正则化(Prediction Consistency Regularization, PCR),融合两类方法优势,通过表征与标签层面的双重一致性提升GCD性能。
PCR基于期望最大化(EM)框架迭代优化,包含以下核心步骤:
- E步:通过半监督K均值(SSK)生成伪标签;
- M步:最小化目标函数(含PCR损失),联合优化模型参数。
(1)预测一致性正则化(PCR)
- 分类分布一致性(CDC):通过KL散度约束线性分类器与SSK的预测相似性矩阵(𝐔与𝐕)一致性,避免伪标签错配。
- 表征学习一致性(RLC):结合两类伪标签计算聚类中心(参数化中心与SSK中心),通过对比损失拉近同类中心、推开异类中心。
(2)表征学习
- 结合自监督与监督对比损失(公式6-8),利用DINO预训练的ViT-B/16模型提取特征。
- 线性分类器通过交叉熵损失(公式9-11)优化,引入熵正则化防止平凡解。
(3)半监督K均值(SSK)
- 初始化:已知类别中心由标注数据确定,新类别中心通过K-means++从未标注数据生成。
- 约束条件:标注数据始终分配至正确类别,未标注数据按距离动态分配。
性能对比(表2)
消融实验(表3)
误差分析(图5)
训练动态(图6)
(报告总字数:约1500字)