二值化混合视觉变换器

分享自：
二值化混合视觉变换器

期刊:CVPR
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
BHViT：面向边缘设备的二值化混合视觉Transformer架构研究一、作者与发表信息本研究由Tian Gao（南京理工大学/澳门大学）、Yu Zhang（上海交通大学）、Zhiyuan Zhang（新加坡管理大学）等合作完成，通讯作者为Hui Kong（澳门大学）。论文以《BHViT: Binarized Hybrid Vision Transformer》为题，发表于计算机视觉领域顶级会议CVPR（计算机视觉与模式识别会议），并标注为开放获取版本。
二、学术背景研究领域：计算机视觉中的模型轻量化与高效计算。
 研究动机：视觉Transformer（ViT）因计算复杂度高，难以在资源受限的边缘设备部署。尽管二值化神经网络（BNN, Binarized Neural Networks）在CNN架构中已成功实现高效计算，但直接应用于ViT会导致性能显著下降（如图1所示，二值化DeiT-small模型准确率从79.9%降至49.5%）。
 核心问题：ViT的二值化面临两大挑战：
 1. 注意力模块的梯度因符号函数（sign operator）不可微而消失；
 2. 二值化注意力矩阵无法准确表征token间相似性差异，引入噪声。
 研究目标：提出BHViT（二值化混合视觉Transformer），通过混合架构设计、量化分解（QD, Quantization Decomposition）和二值化MLP增强模块，实现高性能、低计算成本的ViT二值化。
三、研究流程与方法1. 混合架构设计多尺度分组空洞卷积（MSGDC, Multi-Scale Grouped Dilated Convolution）：在前两阶段替代自注意力机制，通过不同膨胀率的卷积组融合多尺度特征，减少冗余token计算。
 
多尺度多头注意力（MSMHA, Multi-Scale Multi-Head Attention）：后两阶段采用窗口注意力机制，结合全局池化生成高尺度特征，降低计算复杂度。
 
关键观察：避免过多token（Observation 1）和添加残差连接（Observation 2）可优化二值化ViT性能。
 
2. 量化分解（QD）方法：将注意力矩阵分解为多个二值基（binary bases），通过逻辑运算保留相似性差异。例如，对缩放后的注意力矩阵（s = 2^n -1）进行阈值分割，生成多组二值矩阵（图4）。
 
优势：解决二值注意力矩阵仅能表示0/1而无法区分权重的问题。
 
3. 二值化MLP增强移位模块（Shift Module）：通过水平、垂直和混合移位操作（图5）增强特征交互，减少信息损失。
 
训练策略：结合知识蒸馏（以DeiT-small为教师模型）和正则化损失（L1-regularization），缓解Adam优化器导致的权重振荡（Observation 3）。
 
4. 实验设置数据集：ImageNet-1K（分类）、ADE20K（分割）、RS-LVF（道路分割）。
 
实现细节：
 使用AdamW优化器，初始学习率5×10^-4，余弦退火调度。
 
分类任务训练150-300轮，分割任务50-100轮。
 
四、主要结果分类性能：
CIFAR-10：BHViT-small准确率达95.0%，超越所有二值化CNN和ViT方法（表1）。
 
ImageNet-1K：BHViT-small†（保持下采样层全精度）准确率70.1%，显著优于BiViT（55.5%）和ReactNet（65.5%）（表2）。
 
分割任务：
RS-LVF道路分割：BHViT的mIoU达85.1%，优于全精度ResNet-34（77.8%）和二值化ReactNet（63.6%）（表3）。
 
ADE20K图像分割：mIoU 14.87%，为当前二值化方法最优（表4）。
 
消融实验：
移除QD或MSGDC模块会导致性能下降4-8%（表5）；
 
正则化损失（RL）有效减少权重振荡（图7-8）。
 
五、结论与价值科学价值：
 1. 首次系统分析了ViT二值化的性能瓶颈，并提出混合架构解决结构不兼容问题；
 2. 量化分解方法为二值化注意力机制提供了新思路。
 应用价值：BHViT在边缘设备上实现实时高效推理，为Transformer在无人机（RS-LVF）、移动端等场景的部署提供可能。
六、研究亮点混合架构创新：结合CNN的局部性与ViT的全局注意力，兼顾性能与效率；
 
量化分解（QD）：通过多阈值二值化保留注意力权重差异；
 
训练优化：提出针对二值化模型的L1正则化损失，解决Adam优化器适配问题。
 
七、其他贡献开源代码：https://github.com/imrl/bhvit
 
跨任务验证：在分类、分割任务中均达到SOTA，证明方法泛化性。
 
（报告总字数：约1500字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问