分享自:

高效混合CNN-Transformer架构的大规模视频快照压缩成像

期刊:international journal of computer visionDOI:10.1007/s11263-024-02101-y

这篇文档属于类型a,是一篇关于视频快照压缩成像(Video Snapshot Compressive Imaging, SCI)高效重建算法的原创研究论文。以下是详细的学术报告:


作者及发表信息

  • 主要作者:Miao Cao(曹淼,浙江大学)、Lishun Wang(王立顺,西湖大学)、Mingyu Zhu(朱明宇,西湖大学)、Xin Yuan(袁鑫,西湖大学)
  • 机构:浙江大学、西湖大学未来产业研究中心
  • 期刊International Journal of Computer Vision
  • 发表时间:2024年5月19日
  • DOIhttps://doi.org/10.1007/s11263-024-02101-y

学术背景

研究领域:计算成像(Computational Imaging)与深度学习(Deep Learning)的交叉领域,聚焦于视频快照压缩成像(Video SCI)技术。
研究动机
1. 问题背景:传统高速成像硬件成本高、数据传输压力大。SCI技术通过调制掩膜和单次曝光压缩多帧视频,但重建算法面临两大挑战:
- 现有深度学习模型计算复杂度高,难以处理大规模视频(如超高清视频);
- 模型对压缩比(Compression Ratio, CR)的适应性差,需为不同CR重新训练模型。
2. 研究目标:提出一种高效、灵活的端到端网络(EfficientSCI++),实现高质量、低计算成本的视频重建,并支持动态压缩比。


研究流程与方法

1. 算法设计

  • 核心架构
    • 混合CNN-Transformer结构:空间域采用卷积(CNN)提取局部特征,时间域采用Transformer捕捉长程依赖。
    • 分层残差连接(Hierarchical Residual-like Connections):在单个残差块内引入跨层连接,增强特征复用能力。
    • 动态位置编码(Dynamic Position Encoding, DPE):通过3D卷积隐式编码位置信息,支持任意压缩比输入。
  • 创新模块
    • ReshNet Block:将输入特征分组并行处理,通过残差连接融合,显著降低计算复杂度(如参数量减少25%)。
    • CFormer Block:结合空间卷积分支(SCB)和时间自注意力分支(TSAB),时空分离计算以提升效率。
    • 门控3D卷积前馈网络(GFFN):通过门控机制抑制冗余特征,聚焦细节重建。

2. 实验验证

  • 数据集
    • 仿真数据:6组灰度基准数据集(如Kobe、Traffic)、6组中尺度彩色数据集(如Beauty、Bosphorus)、4组大规模数据集(如Messi、Football,分辨率高达1644×3840×3)。
    • 真实数据:首次构建包含连续压缩比(CR=10~50)的彩色与灰度视频数据集(如Domino、Ball)。
  • 对比方法:包括基于模型的方法(GAP-TV、PnP-FastDVDNet)和深度学习方法(BIRNAT、RevSCI、Stformer)。
  • 评估指标:峰值信噪比(PSNR)、结构相似性(SSIM)、GPU内存占用和推理时间。

3. 训练优化

  • 混合精度训练:采用FP16/FP32混合精度,减少内存占用并加速训练,PSNR仅下降0.01~0.02 dB。
  • 损失函数:均方误差(MSE)作为优化目标。

主要结果

  1. 重建质量

    • 灰度视频:EfficientSCI-B++在6组基准数据集上平均PSNR达36.44 dB,超越Stformer-B(36.34 dB)和ELP-Unfolding(35.41 dB)。
    • 彩色视频:在Bosphorus数据集上PSNR达40.96 dB,比BIRNAT提高2.66 dB。
    • 超高清视频:首次实现1644×3840×3分辨率、CR=40的视频重建,PSNR>34 dB。
  2. 计算效率

    • 参数量:EfficientSCI-T++仅0.91M参数,比BIRNAT(3.88M)减少76%。
    • 推理速度:单帧处理时间0.06秒(Stformer需0.49秒)。
  3. 灵活性

    • 单一模型支持CR=10~50的输入,无需微调(传统方法如PnP-FastDVDNet在CR>30时PSNR骤降)。

结论与价值

  1. 科学价值
    • 提出时空分解机制,将Transformer限制于时间域,显著降低计算复杂度(复杂度从O(hwt²c)降至O(hwtc))。
    • 通过动态位置编码解决了传统Transformer对输入尺寸敏感的问题。
  2. 应用价值
    • 为超高清视频实时重建提供可行方案,适用于监控、医疗影像等领域。
    • 开源代码(GitHub)促进社区发展。

研究亮点

  1. 算法创新:首次将CNN-Transformer混合架构引入视频SCI,兼顾局部细节与全局时序建模。
  2. 工程突破:实现首个端到端的超高清彩色视频重建模型,内存占用降低35%。
  3. 数据集贡献:发布首个支持连续压缩比的真实SCI数据集,推动算法灵活性研究。

其他价值

  • 可扩展性:框架可迁移至光谱SCI(Spectral SCI)等其他压缩成像任务。
  • 局限性:低光环境下的噪声处理仍需改进,未来计划结合网络剪枝(Pruning)和量化(Quantization)进一步优化。

(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com