本文介绍了一篇由John Willes、James Harrison、Ali Harakeh、Chelsea Finn、Marco Pavone和Steven L. Waslander共同撰写的论文,题为《Bayesian Embeddings for Few-Shot Open World Recognition》。该论文发表于2022年9月5日的《IEEE Transactions on Pattern Analysis and Machine Intelligence》期刊上。研究的主要目标是解决自主决策系统在开放世界(open-world)和少样本(few-shot)学习环境中的分类问题,特别是如何从少量数据中持续学习新类别。
传统的分类系统通常基于封闭世界(closed-world)假设,即在训练时已知所有可能的类别,并且在部署时这些类别保持不变。然而,现实世界中的学习系统需要在开放环境中运行,能够从少量数据中持续学习新类别。这与现代深度学习系统形成鲜明对比,后者通常依赖于大量数据和固定的类别集。随着自主决策系统(如自动驾驶汽车)在非结构化环境中的广泛应用,开放世界和少样本学习的需求日益迫切。
本文提出了一种新的框架,称为Few-Shot Learning for Open World Recognition (FLOWR),旨在扩展现有的少样本学习算法,使其能够在开放世界环境中运行。FLOWR结合了贝叶斯非参数类别先验和基于嵌入的预训练方案,能够在开放世界中持续检测和学习新类别。
FLOWR框架的核心是一个非参数的高斯-狄利克雷混合模型(Gaussian-Dirichlet Mixture Model),该模型能够在特征空间中进行贝叶斯推断。具体来说,FLOWR通过以下步骤实现开放世界少样本学习:
嵌入预训练:首先,FLOWR通过一个嵌入预训练阶段来初始化模型。预训练阶段使用高斯嵌入方法,学习每个类别的均值和协方差,从而为后续的元学习阶段提供更好的初始化。
元学习:在元学习阶段,FLOWR通过贝叶斯推断来处理少样本学习问题。模型使用中国餐馆过程(Chinese Restaurant Process, CRP)作为类别先验,允许模型在测试时动态地检测和实例化新类别。
测试时更新:在测试阶段,FLOWR能够持续接收新的数据,并根据接收到的标签更新模型。如果检测到新类别,模型会实例化一个新的类别分布,并将其纳入已知类别集中。
FLOWR在MiniImageNet和TieredImageNet数据集上进行了实验验证。实验结果表明,FLOWR在分类准确率和新类别检测方面均优于现有的方法。特别是在新类别检测的H-measure指标上,FLOWR比现有方法提高了12%。
开放世界少样本学习问题的形式化:本文提出了两种开放世界少样本学习问题设置,分别是大上下文(large-context)和小上下文(small-context)设置,为从少样本学习到大规模持续学习的过渡提供了桥梁。
H-measure作为新类别检测的评估指标:本文提出使用H-measure作为开放世界学习算法的评估指标,并证明了传统的AUROC(Area Under the Receiver Operating Characteristic)指标在模型比较中的不可靠性。
贝叶斯少样本学习方案:本文提出了一种基于高斯嵌入的贝叶斯少样本学习方案,结合贝叶斯非参数类别先验,能够有效地在开放世界少样本学习环境中检测和学习新类别。
嵌入预训练阶段:本文引入了一种新的嵌入预训练阶段,通过高斯嵌入方法更好地对齐预训练和元学习阶段的假设,显著提高了模型在不同问题设置下的性能。
FLOWR框架为开放世界少样本学习提供了一个灵活且高效的解决方案,能够持续检测和学习新类别。该框架在自动驾驶、图像分类等领域具有广泛的应用前景,特别是在需要快速适应新环境的场景中。此外,本文提出的H-measure指标为开放世界学习算法的评估提供了新的思路,有助于更公平地比较不同模型的性能。
新类别检测能力:FLOWR在开放世界环境中表现出色,能够有效地检测和学习新类别,特别是在少样本设置下。
贝叶斯非参数模型:FLOWR使用贝叶斯非参数模型来处理开放世界中的类别不确定性,能够动态地实例化新类别。
嵌入预训练:通过高斯嵌入预训练,FLOWR在元学习阶段表现出更好的性能,特别是在大上下文设置下。
本文还提出了未来可能的研究方向,包括在测试时更新已知类别的嵌入以应对概念漂移(concept drift),以及在半监督设置下利用未标记数据来进一步提高模型的性能。
FLOWR框架为开放世界少样本学习提供了一个强大的工具,能够帮助自主决策系统在复杂和动态的环境中持续学习和适应。