这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Dmitry A. Ivanov(1,2)、Denis A. Larionov(3,4)、Oleg V. Maslennikov(2)和Vladimir V. Voevodin(1)合作完成,分别来自以下机构:
1. 莫斯科国立大学(Lomonosov Moscow State University);
2. 俄罗斯科学院应用物理研究所(Gaponov-Grekhov Institute of Applied Physics);
3. 楚瓦什国立大学(Chuvash State University);
4. Cifrum公司(莫斯科)。
研究发表于《Scientific Reports》(2025年,卷15,文章编号9718),开放获取。
研究领域:本研究属于深度强化学习(Deep Reinforcement Learning, RL)与神经网络压缩(Neural Network Compression)的交叉领域,聚焦于通过剪枝(pruning)和量化(quantization)技术优化RL任务的神经网络效率。
研究动机:在机器人控制等RL实际应用中,低延迟、高能效和高吞吐量的推理需求迫切。尽管剪枝和量化在传统深度学习领域已被广泛研究,但其在RL中的适用性尚不明确。RL的动态环境交互、非平稳数据分布等特点,使得直接迁移传统优化技术面临挑战(如剪枝影响探索策略、量化误差干扰奖励信号传播)。
研究目标:
1. 系统评估剪枝与量化在RL任务中的适用性边界;
2. 验证两种技术结合能否在保持模型性能的同时显著压缩网络规模;
3. 探索优化后的网络在硬件部署中的潜力(如降低功耗、提升实时性)。
研究对象:
- 算法:选择两种主流RL算法——深度Q网络(DQN)和软演员-评论家(SAC)。
- 环境:
- Mujoco(连续控制任务,如HalfCheetah、Humanoid等);
- Atari游戏(离散动作空间,如Pong、Boxing等)。
- 神经网络架构:
- SAC:多层感知机(MLP),含2个隐藏层(每层256神经元);
- DQN:经典CNN和ResNet变体。
样本量:
- Mujoco实验重复10次(不同随机种子);
- Atari实验重复5次。
剪枝阶段:
- 策略:采用渐进式剪枝(gradual pruning),基于权重幅值(magnitude-based)的全局非结构化剪枝。
- 调度:从训练步数20%开始,每Δ步剪枝一次,至80%步数完成,最终稀疏度(sparsity)达50%~99%。
- 公式:稀疏度按三次函数增长(见原文公式1),避免性能骤降。
量化阶段:
- 方法:8位对称均匀量化(Symmetric Uniform Quantization),分两种:
- 训练感知量化(QAT):在剪枝后继续训练时引入量化算子;
- 后训练量化(PTQ):直接对已训练模型量化。
- 粒度:全连接层采用层级(layerwise),卷积层采用通道级(channelwise)。
科学价值:
1. 首次系统证明RL任务中神经网络存在高达400倍的冗余,且剪枝与量化可协同作用;
2. 揭示了RL与传统深度学习在优化技术适用性上的差异(如仅剪枝Actor网络更有效)。
应用价值:
- 为边缘AI、实时控制等场景提供高效模型部署方案;
- 推动RL在资源受限设备(如嵌入式系统、机器人)中的普及。
此研究为RL模型的轻量化提供了重要方法论,并为其在工业界的落地扫清了技术障碍。