这篇文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:
作者及机构
本研究由南京大学电子科学与工程学院的Siyu Zhang、中山大学集成电路学院的Wendong Mao(IEEE会员)以及南京大学/中山大学的Zhongfeng Wang(IEEE会士)共同完成,发表于IEEE Transactions on Very Large Scale Integration (VLSI) Systems 2025年4月刊(第33卷第4期)。研究得到中国国家重点研发计划(2022YFB4400600)和深圳市科技计划(2023A007)的支持。
研究领域与动机
视频压缩是存储和传输视频内容的核心技术,而实时解码对用户体验至关重要。传统视频编码标准(如H.264/AVC、H.265/HEVC)依赖手工设计的模块,难以全局优化。近年来,神经视频压缩(Neural Video Compression, NVC)通过结合深度学习与传统编码技术,显著提升了压缩效率。然而,现有NVC模型因高计算复杂度和频繁的片外内存访问,难以在资源受限的设备上实时部署。
本研究提出VCNPU(Video Compression Neural Processing Unit),通过算法-硬件协同设计框架解决以下挑战:
1. 模型复杂性:NVC模型结构复杂,包含不规则数据依赖和异构操作(如反卷积、可变形卷积);
2. 内存瓶颈:运动与残差特征的片外通信导致高功耗;
3. 实时性需求:高清视频(如1080p)需支持多压缩率实时解码。
目标:提升压缩质量并降低推理复杂度。
- RepVCN结构:
- 多分支特征聚合:训练阶段使用多尺度卷积/反卷积分支(如1×3、3×1、3×3卷积),增强运动与残差特征提取能力。
- 等效结构转换:推理阶段通过零填充将多分支合并为单一标准卷积/反卷积,无额外计算开销。
- 掩码共享剪枝策略:
- 在快速变换域(Fast Transform Domain)对权重进行结构化剪枝,避免模型简化破坏稀疏模式。
- 引入质量调制层(QML):通过轻量级参数调整实现多压缩率适配,减少训练成本。
核心模块:
- 可重构稀疏计算模块(SFTM):支持稀疏快速卷积/反卷积,通过混合层融合流水线减少片外数据传输。
- 分块匹配规则:优化输入/输出分块尺寸,确保中间结果在片内复用。
- 可配置计算单元:动态切换卷积/反卷积模式,支持Winograd算法(卷积)和FTA算法(反卷积)。
- 可变形卷积处理模块(DPM):专用于运动补偿中的可变形卷积操作。
实现细节:
- 采用台积电28nm CMOS工艺,工作频率400MHz。
- 多核架构支持并行解码(如2核处理4种压缩率),共享权重与索引以减少内存占用。
科学价值:
1. 算法创新:首次将重参数化技术与快速算法结合,提出RepVCN和掩码共享剪枝策略,为NVC模型压缩提供新思路。
2. 硬件设计:VCNPU通过异构操作协同调度和内存优化,实现高清视频实时解码,填补了NVC专用加速器的空白。
应用价值:
- 适用于边缘设备(如手机、无人机)的低功耗视频解码,支持动态网络带宽适配。
- 为后续视频编码标准(如H.266/VVC)的神经网络集成提供参考。
(报告全文约2000字,涵盖研究全貌及技术细节)