分享自:

Dinomaly:多类无监督异常检测中的少即是多哲学

期刊:CVPR 2025

基于Transformer的极简多类别无监督异常检测框架Dinomaly研究

作者及机构
本研究的核心团队由清华大学、北京理工大学和上海交通大学的研究人员组成。第一作者Jia Guo来自清华大学生物医学工程学院,通讯作者Hongeng Liao同时任职于清华大学和上海交通大学。其他作者包括Shuai Lu、Weihang Zhang、Fang Chen和Huiqi Li,分别来自北京理工大学信息与电子学院和上海交通大学生物医学工程学院。该研究已获CVPR 2025接收。

学术背景

研究领域与动机
无监督异常检测(Unsupervised Anomaly Detection, UAD)是计算机视觉领域的重要研究方向,旨在仅使用正常样本训练模型来识别异常模式。传统UAD方法通常为每个对象类别单独建模(class-separated),但这种方法在涉及多类别时面临模型存储开销大、计算资源消耗高等问题。近年来,多类别统一异常检测(Multi-class Unsupervised Anomaly Detection, MUAD)成为新兴研究方向,旨在构建单一模型处理多类别检测任务。然而,现有MUAD方法的性能仍显著落后于类别分离方法,主要由于多类别正常样本的多样性导致模型出现”身份映射”(identity mapping)现象——即模型对异常样本也能进行有效重建,从而降低检测灵敏度。

研究目标
Dinomaly研究团队提出了一种极简主义的解决方案,旨在通过纯Transformer架构(仅包含注意力机制和多层感知机)实现MUAD性能的突破。研究核心目标是:
1. 验证基础视觉Transformer(Vision Transformer, ViT)在MUAD任务中的可扩展性
2. 提出四种关键组件解决身份映射问题
3. 在多个基准数据集上实现超越现有MUAD方法甚至类别分离方法的性能

研究方法与流程

1. 整体框架设计

Dinomaly采用基于重建的框架,由三个核心模块构成:
- 编码器:采用预训练的ViT-base/14(DINOv2-register预训练)作为特征提取器,提取具有多语义尺度的特征图
- 噪声瓶颈层:简单的MLP结构,收集编码器中间8层的特征表示,并引入Dropout机制作为噪声注入策略
- 重建解码器:8层Transformer结构,使用线性注意力(linear attention)替代标准softmax注意力

创新工作流程
1) 训练阶段:解码器通过最大化编码器-解码器特征图之间的余弦相似度来学习重建中间层特征
2) 推理阶段:解码器仅能成功重建正常区域特征,而对异常区域重建失败,通过计算特征差异实现异常检测

2. 四大关键技术组件

(1) 可扩展的基础Transformer(Foundation Transformers)

研究发现,自监督预训练的ViT模型在UAD任务中表现出显著优势:
- 系统评估了不同预训练策略(对比学习、掩码图像建模及其组合)对检测性能的影响
- 采用DINOv2-register预训练的ViT-base/14作为默认编码器,因其在性能与计算效率间取得最佳平衡
- 首次揭示了UAD模型的缩放规律:模型性能随ViT规模(small/base/large)提升而持续提高

(2) 噪声瓶颈层(Noisy Bottleneck)

创新性地利用MLP中的固有Dropout机制作为噪声注入策略:
- 在训练过程中随机丢弃瓶颈层神经激活(默认丢弃率20%,在复杂数据集REAL-IAD上提升至40%)
- 作用机理类似于去噪自编码器,迫使解码器学习恢复被干扰的正常特征表示
- 相比人工设计的伪异常生成策略,该方法更具普适性和可扩展性

(3) 非聚焦线性注意力(Unfocused Linear Attention)

采用线性注意力替代标准softmax注意力的双重优势:
- 计算效率:将复杂度从O(n²d)降至O(nd²),通过改变计算顺序实现(qk^T)v → q(k^Tv)
- 防身份映射:线性注意力因缺乏softmax重加权而无法聚焦局部区域,天然阻止相同信息的直接传递
- 可视化对比显示,softmax注意力会精确聚焦查询区域,而线性注意力分散关注整个图像

(4) 宽松重建约束(Loose Reconstruction)

提出两种创新约束策略:
1) 层级分组重建:将多个编码器层的特征合并为一组(分为低语义组和高语义组),而非逐层对应重建
2) 宽松损失函数:采用硬挖掘全局余弦损失(hard-mining global cosine loss),在训练过程中忽略重建良好的特征点

主要实验结果

1. 多类别UAD性能对比

在三大基准数据集上的表现:

| 数据集 | 图像级AUROC | 像素级AUROC | 超越SOTA幅度 |
|————–|————-|————-|————–|
| MVTec-AD | 99.6% | 98.4% | +1.0%/+0.7% |
| Visa | 98.7% | 98.7% | +3.2%/+0.2% |
| REAL-IAD | 89.3% | 98.8% | +3.0%/+0.3% |

特别在MVTec-AD上,Dinomaly几乎达到图像级检测的性能饱和点(99.6% AUROC)。

2. 与类别分离方法的对比

令人惊讶的是,Dinomaly在MUAD设置下的性能甚至媲美传统类别分离方法:

| 方法类型 | MVTec-AD图像级AUROC |
|————–|———————|
| Dinomaly(MUAD) | 99.6% |
| Dinomaly(类别分离) | 99.7% |
| PatchCore | 99.1% |

3. 模型可扩展性验证

  • 模型规模:从ViT-small到ViT-large,性能持续提升(MVTec-AD图像级AUROC从99.26%升至99.77%)
  • 输入分辨率:增大输入尺寸可提升定位性能,而不会像传统方法那样导致检测性能下降
  • 训练周期:延长训练时长可进一步提升性能(Dinomaly↑),且不增加推理成本

4. 消融实验

系统验证了各组件贡献:

| 组件组合 | MVTec-AD图像级AUROC |
|—————-|———————|
| 基线模型 | 98.41% |
| +噪声瓶颈层 | 99.06% (+0.65) |
| +线性注意力 | 99.50% (+0.44) |
| +宽松重建约束 | 99.57% (+0.07) |
| 完整模型 | 99.60% |

研究结论与价值

理论价值
1. 首次系统验证了Transformer在MUAD任务中的缩放规律,打破了”UAD模型不遵循缩放定律”的传统认知
2. 提出身份映射现象的新解释——”过度泛化”问题,为后续研究提供新视角
3. 证明简单的Dropout机制可以替代复杂的伪异常生成策略

应用价值
1. 为工业检测(多产品线统一质检)、医疗影像分析(多病种筛查)等场景提供高效解决方案
2. 模型可灵活适配不同计算资源场景,小规模模型在边缘设备部署成为可能
3. 开源代码(GitHub仓库)促进技术落地

研究亮点

  1. 极简主义设计:仅使用标准Transformer模块(注意力和MLP),无需复杂定制组件
  2. 性能突破:在多个数据集上同时超越MUAD和类别分离方法的SOTA记录
  3. 可解释性创新:通过线性注意力的”非聚焦”特性自然解决身份映射问题
  4. 可扩展性证明:首次展示UAD任务中模型规模与性能的正相关关系

其他重要发现

  1. 预训练策略影响:对比学习与掩码图像建模结合的预训练方式(如DINOv2)表现最佳
  2. 输入分辨率灵活性:支持从280×280到512×512的宽范围输入,适应不同精度需求
  3. 跨数据集泛化性:在MPDD、BTAD等额外基准测试中保持优越性能

这项研究为多类别异常检测提供了新的方法论框架,其”少即是多”(Less is More)的设计哲学可能启发更多视觉任务的解决方案创新。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com