高效混合CNN-Transformer架构的大规模视频快照压缩成像

分享自：

高效混合CNN-Transformer架构的大规模视频快照压缩成像

光学

光信息科学与光电子学

期刊:international journal of computer visionDOI:10.1007/s11263-024-02101-y

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，是一篇关于视频快照压缩成像（Video Snapshot Compressive Imaging, SCI）高效重建算法的原创研究论文。以下是详细的学术报告：
作者及发表信息主要作者：Miao Cao（曹淼，浙江大学）、Lishun Wang（王立顺，西湖大学）、Mingyu Zhu（朱明宇，西湖大学）、Xin Yuan（袁鑫，西湖大学）
 
机构：浙江大学、西湖大学未来产业研究中心
 
期刊：International Journal of Computer Vision
 
发表时间：2024年5月19日
 
DOI：https://doi.org/10.1007/s11263-024-02101-y
 
学术背景研究领域：计算成像（Computational Imaging）与深度学习（Deep Learning）的交叉领域，聚焦于视频快照压缩成像（Video SCI）技术。
 研究动机：
 1. 问题背景：传统高速成像硬件成本高、数据传输压力大。SCI技术通过调制掩膜和单次曝光压缩多帧视频，但重建算法面临两大挑战：
 - 现有深度学习模型计算复杂度高，难以处理大规模视频（如超高清视频）；
 - 模型对压缩比（Compression Ratio, CR）的适应性差，需为不同CR重新训练模型。
 2. 研究目标：提出一种高效、灵活的端到端网络（EfficientSCI++），实现高质量、低计算成本的视频重建，并支持动态压缩比。
研究流程与方法1. 算法设计核心架构：
 混合CNN-Transformer结构：空间域采用卷积（CNN）提取局部特征，时间域采用Transformer捕捉长程依赖。
 
分层残差连接（Hierarchical Residual-like Connections）：在单个残差块内引入跨层连接，增强特征复用能力。
 
动态位置编码（Dynamic Position Encoding, DPE）：通过3D卷积隐式编码位置信息，支持任意压缩比输入。
 
创新模块：
 ReshNet Block：将输入特征分组并行处理，通过残差连接融合，显著降低计算复杂度（如参数量减少25%）。
 
CFormer Block：结合空间卷积分支（SCB）和时间自注意力分支（TSAB），时空分离计算以提升效率。
 
门控3D卷积前馈网络（GFFN）：通过门控机制抑制冗余特征，聚焦细节重建。
 
2. 实验验证数据集：
 仿真数据：6组灰度基准数据集（如Kobe、Traffic）、6组中尺度彩色数据集（如Beauty、Bosphorus）、4组大规模数据集（如Messi、Football，分辨率高达1644×3840×3）。
 
真实数据：首次构建包含连续压缩比（CR=10~50）的彩色与灰度视频数据集（如Domino、Ball）。
 
对比方法：包括基于模型的方法（GAP-TV、PnP-FastDVDNet）和深度学习方法（BIRNAT、RevSCI、Stformer）。
 
评估指标：峰值信噪比（PSNR）、结构相似性（SSIM）、GPU内存占用和推理时间。
 
3. 训练优化混合精度训练：采用FP16/FP32混合精度，减少内存占用并加速训练，PSNR仅下降0.01~0.02 dB。
 
损失函数：均方误差（MSE）作为优化目标。
 
主要结果重建质量：
灰度视频：EfficientSCI-B++在6组基准数据集上平均PSNR达36.44 dB，超越Stformer-B（36.34 dB）和ELP-Unfolding（35.41 dB）。
 
彩色视频：在Bosphorus数据集上PSNR达40.96 dB，比BIRNAT提高2.66 dB。
 
超高清视频：首次实现1644×3840×3分辨率、CR=40的视频重建，PSNR>34 dB。
 
计算效率：
参数量：EfficientSCI-T++仅0.91M参数，比BIRNAT（3.88M）减少76%。
 
推理速度：单帧处理时间0.06秒（Stformer需0.49秒）。
 
灵活性：
单一模型支持CR=10~50的输入，无需微调（传统方法如PnP-FastDVDNet在CR>30时PSNR骤降）。
 
结论与价值科学价值：
 提出时空分解机制，将Transformer限制于时间域，显著降低计算复杂度（复杂度从O(hwt²c)降至O(hwtc)）。
 
通过动态位置编码解决了传统Transformer对输入尺寸敏感的问题。
 
应用价值：
 为超高清视频实时重建提供可行方案，适用于监控、医疗影像等领域。
 
开源代码（GitHub）促进社区发展。
 
研究亮点算法创新：首次将CNN-Transformer混合架构引入视频SCI，兼顾局部细节与全局时序建模。
 
工程突破：实现首个端到端的超高清彩色视频重建模型，内存占用降低35%。
 
数据集贡献：发布首个支持连续压缩比的真实SCI数据集，推动算法灵活性研究。
 
其他价值可扩展性：框架可迁移至光谱SCI（Spectral SCI）等其他压缩成像任务。
 
局限性：低光环境下的噪声处理仍需改进，未来计划结合网络剪枝（Pruning）和量化（Quantization）进一步优化。
 
（报告总字数：约1800字）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问