分享自:

TransXNet:一种用于视觉识别的双动态令牌混合器

期刊:journal of latex class files

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


TransXNet:一种结合全局与局部动态的双重动态令牌混合器在视觉识别中的应用

作者及机构
本研究由Meng Lou(深睿医疗人工智能实验室)、Hong-Yu Zhou(IEEE会员,香港大学计算机科学系)、Sibei Yang(上海科技大学智能视觉与成像工程研究中心)和Yizhou Yu(IEEE会士,香港大学计算机科学系)合作完成,发表于期刊《Journal of LaTeX Class Files》。


学术背景

研究领域与动机
视觉Transformer(Vision Transformer, ViT)通过多头自注意力(Multi-Head Self-Attention, MHSA)实现了长程建模,但缺乏卷积神经网络(CNN)固有的归纳偏置(inductive bias),导致泛化能力较弱。现有方法尝试将卷积与自注意力结合以引入归纳偏置,但静态卷积无法动态适应输入变化,限制了模型的表现能力。此外,堆叠混合令牌混合器(token mixer)时,静态卷积阻碍了自注意力生成的特征与卷积核的深度融合,导致网络表示能力次优。

研究目标
本研究提出一种轻量级的双重动态令牌混合器(Dual Dynamic Token Mixer, D-Mixer),通过输入依赖的方式聚合全局信息与局部细节,同时设计新型混合CNN-Transformer视觉骨干网络TransXNet,以提升模型在视觉任务中的性能。


研究方法与流程

1. D-Mixer的设计

D-Mixer将输入特征沿通道维度均匀分为两半,分别通过以下模块处理:
- 重叠空间缩减注意力(Overlapping Spatial Reduction Attention, OSRA):改进传统空间缩减注意力(SRA),通过重叠的深度可分离卷积保留边界空间结构,动态计算全局注意力矩阵。
- 输入依赖的深度卷积(Input-Dependent Depthwise Convolution, IDConv):通过自适应平均池化和1×1卷积生成动态卷积核,结合静态可学习参数,实现输入依赖的局部特征提取。

两半特征输出拼接后,通过压缩令牌增强器(Squeezed Token Enhancer, STE)(含3×3深度卷积和通道压缩-扩展结构)进一步优化局部关系,降低计算成本。

2. 多尺度前馈网络(Multi-Scale Feed-Forward Network, MS-FFN)

传统前馈网络(FFN)仅处理跨通道信息,而MS-FFN通过并行多尺度深度卷积(核尺寸为1×1、3×3、5×5、7×7)聚合不同尺度的局部特征,提升模型的多尺度感知能力。

3. TransXNet架构

  • 分层设计:包含4个阶段,每阶段由块嵌入层和堆叠的TransXNet块组成。
  • 动态位置编码(Dynamic Position Encoding, DPE):增强位置感知能力。
  • 变体配置:根据计算成本调整IDConv的注意力组数和MS-FFN的扩展比,设计Tiny(T)、Small(S)、Base(B)三种模型。

4. 实验验证

  • 数据集:ImageNet-1K(分类)、COCO(检测与实例分割)、ADE20K(语义分割)。
  • 对比方法:Swin Transformer、PVTv2、ConvNeXt等。
  • 指标:Top-1准确率、FLOPs、参数量、mAP、mIoU。

主要结果

  1. ImageNet-1K分类

    • TransXNet-T以1.8 GFLOPs和12.8M参数量达到81.6% Top-1准确率,超越Swin-T(81.3%),且计算成本减半。
    • TransXNet-S/B分别达到83.8%/84.6%的Top-1准确率,优于InternImage等模型。
  2. 目标检测与实例分割(COCO)

    • TransXNet-S在RetinaNet框架下AP达46.4%,较Swin-T提升4.9%;在Mask R-CNN中APb为47.7%,显著优于同类模型。
  3. 语义分割(ADE20K)

    • TransXNet-T以45.5% mIoU超越PVTv2-B1(42.5%);TransXNet-B达49.9% mIoU,为当前最优。
  4. 消融实验

    • IDConv vs. 静态卷积:IDConv提升Top-1准确率0.6%,mIoU 1.0%。
    • MS-FFN多尺度设计:使用{1,3,5,7}卷积核时性能最佳。
    • 通道分配比例:OSRA与IDConv通道比1:1时性价比最高。

结论与价值

  1. 科学价值

    • 提出动态卷积与自注意力的深度融合机制,解决了静态卷积与动态注意力间的表示差异问题。
    • 通过OSRA和IDConv的协同设计,模型同时具备大有效感受野(Effective Receptive Field, ERF)和强归纳偏置。
  2. 应用价值

    • TransXNet在分类、检测、分割任务中均达到SOTA,且计算成本更低,适合部署到资源受限场景。
    • 代码开源(GitHub),便于社区复现与拓展。

研究亮点

  1. 创新方法

    • D-Mixer:首个将输入依赖的全局注意力与动态卷积结合的令牌混合器。
    • MS-FFN:通过多尺度深度卷积充分挖掘隐藏层通道信息。
  2. 性能优势

    • 在ImageNet-1K-v2上,TransXNet-B的Top-1准确率(75.0%)显著优于同类模型,显示更强泛化能力。
    • ERF可视化显示TransXNet兼具全局敏感性与局部细节捕捉能力。
  3. 工程友好性

    • 无需专用CUDA加速,易于移植到不同硬件平台。

其他发现

  • 局限性:MS-FFN中的多尺度卷积可能影响GPU并行效率,未来需优化实现。
  • 扩展方向:探索不同阶段的动态卷积与注意力通道比例,或通过神经架构搜索(NAS)进一步优化设计。

此研究为视觉Transformer与CNN的融合提供了新范式,其动态性与高效性在多个任务中展现出显著优势。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com