这篇文档属于类型a,是一篇关于深度强化学习(Deep Reinforcement Learning, DRL)中神经元活性问题的原创研究论文。以下为详细的学术报告:
作者与发表信息
本文由匿名作者团队完成,提交至第39届神经信息处理系统会议(NeurIPS 2025)。研究机构与具体作者信息因匿名要求未公开,但代码已通过匿名链接发布。
学术背景
研究领域:
本文属于深度强化学习(DRL)与神经网络架构优化的交叉领域,聚焦于神经元活性退化(neuronal activity loss)问题。
研究动机:
DRL智能体在训练过程中常出现部分神经元逐渐失活(dormant neurons)的现象,导致网络适应新数据的能力下降,从而影响持续学习(continual learning)性能。传统方法通过激活值统计(如τ-休眠神经元比率,τ-dormant neuron ratio)量化神经元活性,但该方法在复杂架构(如残差网络、扩散模型)中统计效力不足。
研究目标:
提出一种基于梯度幅值(gradient magnitude)的神经元活性度量方法GRAMA(Gradient Magnitude Neural Activity Metric),并开发配套的神经元重置机制ReGRAMA,以解决复杂架构下神经元活性检测的失效问题。
研究流程与方法
1. 问题分析与现有方法局限性验证
- 研究对象:
对比传统激活值度量(如REDO方法)与GRAMA在多种DRL架构中的表现,包括:
- 残差网络(Bro-Net)
- 扩散模型(DACER)
- 不同激活函数(ReLU、Leaky ReLU、Sigmoid、Tanh)的MLP策略。
- 实验设计:
- 在DeepMind Control Suite和MuJoCo基准任务中,验证REDO对复杂架构的失效(图1显示其在Bro-Net中无法恢复学习能力)。
- 定性分析激活值度量失效的三大原因(图2):
- 多分支结构:残差连接导致激活值无法反映单一路径贡献;
- 非ReLU激活函数:如Leaky ReLU中负值仍具表达力;
- 归一化层:归一化后激活值失真。
2. GRAMA算法开发
- 核心公式:
神经元i在层ℓ的活性得分(公式2):
[ g^ℓi = \frac{\mathbb{E}{x\in D}|\nabla_{h^ℓi} L(x)|}{\frac{1}{h^ℓ}\sum{k\in h} \mathbb{E}{x\in D}|\nabla{h^ℓ_k} L(x)|} ]
若( g^ℓ_i \leq τ ),判定为低活性神经元。
- 优势:
- 轻量级:利用反向传播已有的梯度信息,无需额外存储激活值(图5左);
- 架构无关性:适用于残差、扩散等复杂模型。
3. ReGRAMA重置机制
- 流程(算法1):
周期性(如每1000步)计算GRAMA得分,重置( g^ℓ_i \leq τ )的神经元:
- 理论验证:
在传统MLP+ReLU架构中,GRAMA与REDO等价(定理1):若神经元激活值为0,其梯度幅值也为0。
4. 实验验证
- 任务与架构:
- 残差网络:Bro-Net在Dog Stand/Walk/Run等任务中,ReGRAMA显著优于REDO(图8);
- 扩散模型:DACER在Ant和Walker2D任务中,ReGRAMA保持稳定性(图10);
- 激活函数变体:ReGRAMA在Tanh/Sigmoid下性能稳定,而REDO失效(图12)。
- 统计方法:
所有实验重复3-15次,报告均值与误差范围(如箱线图展示四分位数)。
主要结果
- GRAMA的普适性:
- 在残差Bro-Net中,ReGRAMA将性能提升至REDO的1.5倍(图8);
- 在扩散模型DACER中,ReGRAMA减少低活性神经元比例达30%(图11)。
- 神经元活性与性能关系:
- 低活性神经元比例与任务得分呈负相关(图6a);
- 神经元活性退化不可逆(图6b)。
- 阈值鲁棒性:
GRAMA对阈值τ的选择不敏感,优于REDO(图13)。
结论与价值
科学价值:
1. 揭示了传统激活值度量在复杂架构中的局限性,提出梯度幅值是更可靠的神经元活性指标;
2. 为DRL智能体的持续学习能力维护提供了轻量级解决方案。
应用价值:
- 可集成至现有DRL框架(如SAC、PPO),无需修改架构即可提升性能;
- 适用于机器人控制、游戏AI等高维观测任务。
研究亮点
- 方法创新:
- 首次将神经元活性评估从激活值转向梯度幅值;
- GRAMA是首个适用于扩散模型DRL的活性度量工具。
- 实证全面性:
覆盖残差、扩散、多激活函数等前沿架构,实验设计严谨。
- 开源贡献:
代码公开,支持后续研究复现与扩展。
其他价值
- 为神经网络可解释性研究提供了新视角(梯度与学习能力的直接关联);
- 提出的ReGRAMA机制可扩展至其他持续学习场景(如多任务强化学习)。