测量梯度而非激活！增强深度强化学习中的神经元活动

分享自：
测量梯度而非激活！增强深度强化学习中的神经元活动

期刊:39th conference on neural information processing systems (NeurIPS 2025)
这篇文档属于类型a，是一篇关于深度强化学习（Deep Reinforcement Learning, DRL）中神经元活性问题的原创研究论文。以下为详细的学术报告：
作者与发表信息本文由匿名作者团队完成，提交至第39届神经信息处理系统会议（NeurIPS 2025）。研究机构与具体作者信息因匿名要求未公开，但代码已通过匿名链接发布。
学术背景研究领域：
 本文属于深度强化学习（DRL）与神经网络架构优化的交叉领域，聚焦于神经元活性退化（neuronal activity loss）问题。
研究动机：
 DRL智能体在训练过程中常出现部分神经元逐渐失活（dormant neurons）的现象，导致网络适应新数据的能力下降，从而影响持续学习（continual learning）性能。传统方法通过激活值统计（如τ-休眠神经元比率，τ-dormant neuron ratio）量化神经元活性，但该方法在复杂架构（如残差网络、扩散模型）中统计效力不足。
研究目标：
 提出一种基于梯度幅值（gradient magnitude）的神经元活性度量方法GRAMA（Gradient Magnitude Neural Activity Metric），并开发配套的神经元重置机制ReGRAMA，以解决复杂架构下神经元活性检测的失效问题。
研究流程与方法1. 问题分析与现有方法局限性验证研究对象：
 对比传统激活值度量（如REDO方法）与GRAMA在多种DRL架构中的表现，包括：
 残差网络（Bro-Net）
 
扩散模型（DACER）
 
不同激活函数（ReLU、Leaky ReLU、Sigmoid、Tanh）的MLP策略。
 
实验设计：
 在DeepMind Control Suite和MuJoCo基准任务中，验证REDO对复杂架构的失效（图1显示其在Bro-Net中无法恢复学习能力）。
 
定性分析激活值度量失效的三大原因（图2）：
 
 多分支结构：残差连接导致激活值无法反映单一路径贡献；
 
非ReLU激活函数：如Leaky ReLU中负值仍具表达力；
 
归一化层：归一化后激活值失真。
 
2. GRAMA算法开发核心公式：
 神经元i在层ℓ的活性得分（公式2）：
 [ g^ℓi = \frac{\mathbb{E}{x\in D}|\nabla_{h^ℓi} L(x)|}{\frac{1}{h^ℓ}\sum{k\in h} \mathbb{E}{x\in D}|\nabla{h^ℓ_k} L(x)|} ]
 若( g^ℓ_i \leq τ )，判定为低活性神经元。
 
优势：
 轻量级：利用反向传播已有的梯度信息，无需额外存储激活值（图5左）；
 
架构无关性：适用于残差、扩散等复杂模型。
 
3. ReGRAMA重置机制流程（算法1）：
 周期性（如每1000步）计算GRAMA得分，重置( g^ℓ_i \leq τ )的神经元：
 输入权重重置为初始分布；
 
输出权重置零。
 
理论验证：
 在传统MLP+ReLU架构中，GRAMA与REDO等价（定理1）：若神经元激活值为0，其梯度幅值也为0。
 
4. 实验验证任务与架构：
 残差网络：Bro-Net在Dog Stand/Walk/Run等任务中，ReGRAMA显著优于REDO（图8）；
 
扩散模型：DACER在Ant和Walker2D任务中，ReGRAMA保持稳定性（图10）；
 
激活函数变体：ReGRAMA在Tanh/Sigmoid下性能稳定，而REDO失效（图12）。
 
统计方法：
 所有实验重复3-15次，报告均值与误差范围（如箱线图展示四分位数）。
 
主要结果GRAMA的普适性：
 在残差Bro-Net中，ReGRAMA将性能提升至REDO的1.5倍（图8）；
 
在扩散模型DACER中，ReGRAMA减少低活性神经元比例达30%（图11）。
 
神经元活性与性能关系：
 低活性神经元比例与任务得分呈负相关（图6a）；
 
神经元活性退化不可逆（图6b）。
 
阈值鲁棒性：
 GRAMA对阈值τ的选择不敏感，优于REDO（图13）。
 
结论与价值科学价值：
 1. 揭示了传统激活值度量在复杂架构中的局限性，提出梯度幅值是更可靠的神经元活性指标；
 2. 为DRL智能体的持续学习能力维护提供了轻量级解决方案。
应用价值：
 - 可集成至现有DRL框架（如SAC、PPO），无需修改架构即可提升性能；
 - 适用于机器人控制、游戏AI等高维观测任务。
研究亮点方法创新：
 首次将神经元活性评估从激活值转向梯度幅值；
 
GRAMA是首个适用于扩散模型DRL的活性度量工具。
 
实证全面性：
 覆盖残差、扩散、多激活函数等前沿架构，实验设计严谨。
 
开源贡献：
 代码公开，支持后续研究复现与扩展。
 
其他价值为神经网络可解释性研究提供了新视角（梯度与学习能力的直接关联）；
 
提出的ReGRAMA机制可扩展至其他持续学习场景（如多任务强化学习）。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问