分享自:

基于深度学习的开放集识别研究综述

期刊:chinese journal of computersDOI:10.11897/sp.j.1016.2025.00828

本文是一篇发表在《Chinese Journal of Computers》2025年4月刊上的综述文章,标题为《基于深度学习的开放集识别研究综述》。作者包括章秦(深圳大学计算机与软件学院)、刘紫琪(深圳大学计算机与软件学院)、张晓林(山东科技大学电气工程与自动化学院)、张鹏(山东科技大学计算机科学与工程学院)、刘涵(深圳大学计算机与软件学院)和陈小军(深圳大学计算机与软件学院)。该文章系统地梳理和介绍了近年来在机器学习领域,特别是深度学习背景下,针对开放集识别(Open Set Recognition, OSR)这一前沿热点问题的研究成果。

文章的核心议题是开放集识别。作者首先深刻指出了当前主流机器学习范式的局限性。即当前依赖“深度学习+大规模标注数据+完备先验知识”的模式,其成功建立在训练数据类别空间(即“先验知识”)完全已知且静态不变的封闭世界(Closed-World)假设之上。然而,现实世界本质上是开放和动态的,测试阶段出现训练时未见过的新类别(未知类)是常态,例如网络新词、新型网络攻击、自动驾驶中遇到的罕见物体等。若直接应用传统封闭集分类模型,模型会“过于自信”地将这些未知类样本强行归类到某个已知类别中,导致严重的误判,限制了人工智能系统在真实复杂环境中的可靠应用。因此,为了打破对完备类别信息的过度依赖,使模型能够同时准确分类已知类并有效识别未知类,开放集识别的研究应运而生,成为将机器学习从封闭静态环境推向开放动态环境的关键技术。

文章对开放集识别问题给出了清晰的形式化定义。与传统封闭集分类(定义1)不同,开放集识别(定义2)要求模型在训练时仅使用有限已知类别的标注数据(标签空间 Y_tr),但在测试时,需要面对一个更大的标签空间 Y_te(包含已知类和新出现的未知类)。模型的目标是学习一个分类器,不仅能将样本正确分类到已知类别,还能将不属于任何已知类的样本标记为“未知”(即一个增广类)。为了量化问题的开放程度,文章引入了“开放度”(Openness, 定义4)的概念,其值介于0%到100%之间,值越高代表测试阶段出现新类别的可能性越大,问题越具有挑战性。此外,文章还引用了“开放集风险”(Open Set Risk, 定义3)的理论概念,用于衡量分类器将开放空间中的样本误判为已知类的风险。

本文的主体部分(第3节)对基于深度学习的开放集识别方法进行了系统性的分类和详细介绍。作者创新性地从模型训练过程中是否使用或构造辅助数据(特别是模拟的未知类数据)的角度,将所有方法划分为两大类,并在此基础上进行了更细致的梳理。

第一大类是不依赖辅助数据的开放集识别方法。 这类方法仅利用已知类别数据,通过对已知类进行深入的特征学习,构建紧凑的类边界和精确的类归属度度量,从而为未知类预留出空间。具体又可细分为: 1. 基于评分函数(Score-based)的方法: 核心思想是设计或改造模型的输出评分函数,使得已知类样本和未知类样本在该函数值上有显著区分度。例如: * ODIN方法:通过在测试时对输入样本添加基于梯度的微小扰动,并对Softmax输出进行温度缩放(Temperature Scaling),来放大已知类与未知类置信度的差异。 * Energy方法:将Softmax输出转换为能量分数(Energy Score),该分数与输入样本的概率密度对数对齐,理论上能更好地校准模型的不确定性,避免过度自信问题。 * GEN方法:一种黑盒方法,完全依赖预训练分类器的Softmax输出,利用广义熵(Generalized Entropy)构造评分函数来检测未知类。 这类方法的共性是通常将开放集识别视为一个两阶段过程:首先通过评分函数和阈值进行“已知/未知”二分类,再将判为已知的样本进行细分类。阈值的选择通常是此类方法的难点。

  1. 基于距离(Distance-based)的方法: 核心思想是学习每个已知类别的“类原型”(Class Prototype)或类中心,通过度量测试样本到各个原型的距离来判断其归属。其目标是拉近类内样本距离、拉大类间距离,形成紧凑且分离的已知类簇。代表方法包括:

    • OpenMax:开创性工作,计算每个已知类的平均激活向量作为原型,利用极值理论(Extreme Value Theory, EVT)拟合距离分布来校准Softmax输出,直接输出“未知类”概率。
    • CAC:将每个已知类的类中心固定为独热编码,并设计新的损失函数(Class Anchor Clustering Loss),强制样本特征紧密围绕其类中心,显著优化了特征空间的几何结构。
    • RPL和ARPL:引入“反向点”(Reciprocal Point)概念来建模每个已知类别的“非类”空间,通过将已知类样本推离其反向点,间接地为未知类腾出空间。ARPL进一步加入了对抗性机制和生成对抗样本来提升性能。
    • MGPL:采用贝叶斯推理框架,用多个高斯分布(高斯混合原型)来建模每个已知类别的复杂特征分布,使模型更贴合真实数据分布。 基于距离的方法通过优化特征空间本身的几何特性,为开放集识别提供了更本质的解决方案,是目前的主流研究方向之一。
  2. 基于重构(Reconstruction-based)的方法: 核心思想是利用生成模型(如自编码器、生成对抗网络)对已知类数据的分布进行建模。假设生成模型能较好地重构已知类样本,而难以重构未知类样本。因此,可以通过较高的重构误差来识别未知类。这类方法属于生成式方法,其优势在于能更显式地对数据分布进行建模。

第二大类是基于辅助数据的开放集识别方法。 这类方法在训练过程中会主动利用或生成一些模拟的未知类样本(辅助数据),让模型直接学习“未知”的概念。根据辅助数据的来源,可分为: 1. 基于离群值(Outlier-based)的方法: 利用外部数据集或通过数据增强技术产生一些与已知类差异较大的样本作为“离群值”(或称“外部未知样本”),在训练时将这些离群值与已知类数据一起让模型学习区分,从而让模型显式地学习到已知类分布的边界。 2. 基于数据生成(Data Generation-based)的方法: 利用生成模型(如GAN)在已知类特征空间的边界或低密度区域合成未知类样本,作为辅助数据参与训练。这相当于让模型在可控的范围内提前接触“未知”,从而提升其识别真实未知类的能力。

文章不仅对各类方法的核心思想、代表性模型及其损失函数设计进行了清晰的阐述,还通过一张分类图(图3)直观地展示了整个方法体系的脉络,并指出了判别式方法与生成式方法在不同类别中的分布。

在后续部分,文章还系统介绍了开放集识别领域的常用数据集、评估指标(包括专为该问题设计的指标),并对现有主流方法在多个基准数据集上的性能进行了横向对比,为研究者提供了实践参考。此外,文章(第5节)还辨析了开放集识别与零样本/小样本学习、分布外检测、开放世界识别等相关概念的异同,明确了其独特的学术定位。

本文的学术价值和应用意义十分显著。作为一篇系统性的综述,它首次从“是否使用辅助数据”这一新颖视角对深度开放集识别方法进行了全面梳理和分类,为读者和研究者提供了一个清晰的知识图谱和技术发展脉络。文章详细解释了各类方法的内在逻辑、优缺点及相互关系,并对关键模型的技术细节进行了深入剖析,对于刚进入该领域的研究者具有重要的引导作用,对于资深研究者则提供了全面的参考和对比依据。文章所综述的技术在工业质检、医疗诊断、自动驾驶、信息安全、自然语言处理等多个对安全性、可靠性要求极高的领域具有广泛的应用前景,是推动人工智能从实验室走向真实复杂世界的关键技术支撑之一。最后,作者还提供了相关论文和代码的在线汇总链接,极大地便利了后续的学术研究和工程实践。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com