作者及机构
本研究的核心团队由清华大学、北京理工大学和上海交通大学的研究人员组成。第一作者Jia Guo来自清华大学生物医学工程学院,通讯作者Hongeng Liao同时任职于清华大学和上海交通大学。其他作者包括Shuai Lu、Weihang Zhang、Fang Chen和Huiqi Li,分别来自北京理工大学信息与电子学院和上海交通大学生物医学工程学院。该研究已获CVPR 2025接收。
研究领域与动机
无监督异常检测(Unsupervised Anomaly Detection, UAD)是计算机视觉领域的重要研究方向,旨在仅使用正常样本训练模型来识别异常模式。传统UAD方法通常为每个对象类别单独建模(class-separated),但这种方法在涉及多类别时面临模型存储开销大、计算资源消耗高等问题。近年来,多类别统一异常检测(Multi-class Unsupervised Anomaly Detection, MUAD)成为新兴研究方向,旨在构建单一模型处理多类别检测任务。然而,现有MUAD方法的性能仍显著落后于类别分离方法,主要由于多类别正常样本的多样性导致模型出现”身份映射”(identity mapping)现象——即模型对异常样本也能进行有效重建,从而降低检测灵敏度。
研究目标
Dinomaly研究团队提出了一种极简主义的解决方案,旨在通过纯Transformer架构(仅包含注意力机制和多层感知机)实现MUAD性能的突破。研究核心目标是:
1. 验证基础视觉Transformer(Vision Transformer, ViT)在MUAD任务中的可扩展性
2. 提出四种关键组件解决身份映射问题
3. 在多个基准数据集上实现超越现有MUAD方法甚至类别分离方法的性能
Dinomaly采用基于重建的框架,由三个核心模块构成:
- 编码器:采用预训练的ViT-base/14(DINOv2-register预训练)作为特征提取器,提取具有多语义尺度的特征图
- 噪声瓶颈层:简单的MLP结构,收集编码器中间8层的特征表示,并引入Dropout机制作为噪声注入策略
- 重建解码器:8层Transformer结构,使用线性注意力(linear attention)替代标准softmax注意力
创新工作流程:
1) 训练阶段:解码器通过最大化编码器-解码器特征图之间的余弦相似度来学习重建中间层特征
2) 推理阶段:解码器仅能成功重建正常区域特征,而对异常区域重建失败,通过计算特征差异实现异常检测
研究发现,自监督预训练的ViT模型在UAD任务中表现出显著优势:
- 系统评估了不同预训练策略(对比学习、掩码图像建模及其组合)对检测性能的影响
- 采用DINOv2-register预训练的ViT-base/14作为默认编码器,因其在性能与计算效率间取得最佳平衡
- 首次揭示了UAD模型的缩放规律:模型性能随ViT规模(small/base/large)提升而持续提高
创新性地利用MLP中的固有Dropout机制作为噪声注入策略:
- 在训练过程中随机丢弃瓶颈层神经激活(默认丢弃率20%,在复杂数据集REAL-IAD上提升至40%)
- 作用机理类似于去噪自编码器,迫使解码器学习恢复被干扰的正常特征表示
- 相比人工设计的伪异常生成策略,该方法更具普适性和可扩展性
采用线性注意力替代标准softmax注意力的双重优势:
- 计算效率:将复杂度从O(n²d)降至O(nd²),通过改变计算顺序实现(qk^T)v → q(k^Tv)
- 防身份映射:线性注意力因缺乏softmax重加权而无法聚焦局部区域,天然阻止相同信息的直接传递
- 可视化对比显示,softmax注意力会精确聚焦查询区域,而线性注意力分散关注整个图像
提出两种创新约束策略:
1) 层级分组重建:将多个编码器层的特征合并为一组(分为低语义组和高语义组),而非逐层对应重建
2) 宽松损失函数:采用硬挖掘全局余弦损失(hard-mining global cosine loss),在训练过程中忽略重建良好的特征点
在三大基准数据集上的表现:
| 数据集 | 图像级AUROC | 像素级AUROC | 超越SOTA幅度 |
|————–|————-|————-|————–|
| MVTec-AD | 99.6% | 98.4% | +1.0%/+0.7% |
| Visa | 98.7% | 98.7% | +3.2%/+0.2% |
| REAL-IAD | 89.3% | 98.8% | +3.0%/+0.3% |
特别在MVTec-AD上,Dinomaly几乎达到图像级检测的性能饱和点(99.6% AUROC)。
令人惊讶的是,Dinomaly在MUAD设置下的性能甚至媲美传统类别分离方法:
| 方法类型 | MVTec-AD图像级AUROC |
|————–|———————|
| Dinomaly(MUAD) | 99.6% |
| Dinomaly(类别分离) | 99.7% |
| PatchCore | 99.1% |
系统验证了各组件贡献:
| 组件组合 | MVTec-AD图像级AUROC |
|—————-|———————|
| 基线模型 | 98.41% |
| +噪声瓶颈层 | 99.06% (+0.65) |
| +线性注意力 | 99.50% (+0.44) |
| +宽松重建约束 | 99.57% (+0.07) |
| 完整模型 | 99.60% |
理论价值:
1. 首次系统验证了Transformer在MUAD任务中的缩放规律,打破了”UAD模型不遵循缩放定律”的传统认知
2. 提出身份映射现象的新解释——”过度泛化”问题,为后续研究提供新视角
3. 证明简单的Dropout机制可以替代复杂的伪异常生成策略
应用价值:
1. 为工业检测(多产品线统一质检)、医疗影像分析(多病种筛查)等场景提供高效解决方案
2. 模型可灵活适配不同计算资源场景,小规模模型在边缘设备部署成为可能
3. 开源代码(GitHub仓库)促进技术落地
这项研究为多类别异常检测提供了新的方法论框架,其”少即是多”(Less is More)的设计哲学可能启发更多视觉任务的解决方案创新。