《Context Autoencoder (CAE):一种基于掩码图像建模的自监督表征学习方法》学术报告
第一作者及机构
该研究由北京大学Xiaokang Chen、香港大学Mingyu Ding、百度研究院Ying Xin等学者联合完成,发表于计算机视觉领域顶级期刊《International Journal of Computer Vision》2024年第132卷。论文于2023年1月投稿,同年8月在线发表。
科学领域:本研究属于计算机视觉中的自监督表征学习(self-supervised representation learning)领域,聚焦于掩码图像建模(Masked Image Modeling, MIM)任务。
研究动机:
传统MIM方法(如BEiT、MAE)存在两大局限:
1. 表征学习与任务完成的耦合性:单一网络(如ViT)同时承担编码器(表征学习)和解码器(掩码补全)功能,限制了表征质量;
2. 缺乏显式建模:可见块与掩码块的表征间缺乏显式关联,导致语义预测能力不足。
研究目标:提出Context Autoencoder (CAE),通过在编码表征空间内预测掩码块,分离表征学习与预训练任务,提升下游任务(如分割、检测)的迁移性能。
CAE采用编码器-回归器-解码器三级结构:
- 编码器(ViT架构):仅处理可见图像块(visible patches),输出表征$z_v$;
- 回归器(4层交叉注意力Transformer):基于$z_v$预测掩码块表征$z_m$,通过对齐损失(alignment loss)确保$z_m$与编码器直接计算的掩码块表征$z̄_m$一致;
- 解码器(4层自注意力Transformer):仅接收$z_m$重建掩码块,不接触可见块信息。
科学价值:
1. 提出首个在编码表征空间完成MIM的框架,证实高层语义预测对表征学习的促进作用;
2. 通过架构解耦,为自监督学习的可解释性设计提供新范式。
应用价值:
CAE在ImageNet分类、COCO检测等任务中均超越监督学习与对比学习方法,尤其擅长处理非中心物体(图6),证明其学习能力超越传统方法依赖的“中心区域偏好”。
局限性:对大面积连续掩码区域(如整物体遮挡)的推理能力仍需改进。
(全文共计约2000字)