本文旨在向您介绍一项于2024年12月发表在《南昌工程学院学报》上的深度强化学习算法研究。该研究由南昌工程学院信息工程学院的韩龙哲、杨浩、曾添,以及来自国网信息通信产业集团有限公司、北京中电飞华通信有限公司、国网江西省电力有限公司、深圳市国电科技通信有限公司、天津科技大学人工智能学院等多个机构的合作者共同完成。论文题为《基于智能体自适应行为决策的深度强化学习算法》。
这项研究隶属于人工智能领域中的深度强化学习(Deep Reinforcement Learning)方向。深度强化学习结合了深度学习的感知能力与强化学习的决策能力,通过智能体与环境交互学习最优策略,在机器人控制、自动驾驶等领域展现出巨大潜力。然而,传统深度强化学习算法,尤其是应用广泛的深度Q网络(Deep Q-Network, DQN)算法,长期面临两大核心挑战:其一是“过估计”(Overestimation)问题,即算法倾向于高估动作的价值,导致学习不稳定和收敛缓慢;其二是“探索与利用”(Exploration and Exploitation)的平衡难题,如何在尝试新动作(探索)与执行已知高回报动作(利用)之间取得平衡,直接影响学习效率和最终策略的最优性。针对这两大挑战,本研究提出了一种名为AU-D3QN的新算法,旨在缓解过估计并实现探索力度的自适应调节。
研究团队提出的AU-D3QN算法建立在DQN算法的基础之上,其工作流程主要包含两个核心创新环节:一是改进网络结构以缓解过估计,二是设计自适应探索策略以平衡探索与利用。整个研究过程可以概括为算法设计、实现与实验验证三个主要阶段。
首先,在算法设计阶段,研究团队针对过估计问题,采用了融合Double DQN和Dueling DQN优势的思路。他们构建了两个结构相同的神经网络,即主网络和目标网络,并在每个网络内部引入了Dueling架构。具体而言,每个网络的输出层被拆分为两个分支:一个分支估计状态本身的价值V(s),另一个分支估计在该状态下每个动作相对于平均价值的优势A(s, a)。最终的动作价值Q(s, a)由这两部分相加得到,即 Q(s, a) = V(s) + A(s, a)。这种设计使得网络能够区分高Q值究竟是源于“好状态”还是“好动作”,从而更准确地评估动作价值。同时,在计算目标Q值时,采用Double DQN的机制:使用主网络来选择下一状态的最优动作,而使用目标网络来评估该动作的Q值。这种“动作选择”与“价值评估”的解耦,有效减少了因最大化操作带来的偏差。这个融合了Double和Dueling结构的网络被称为D3QN(Double DQN with Dueling Architecture),是AU-D3QN算法的基础骨架。
其次,针对探索与利用的平衡问题,研究团队没有采用传统的固定探索率ε的ε-greedy策略,而是提出了一种基于“系统不确定性测度”的自适应调节方法。这一环节是算法的核心创新点,其工作流程如下: 1. 定义不确定性测度模型:研究引入了信息熵(Information Entropy)的概念来量化智能体在某个状态下的“不确定性”或“困惑度”。具体做法是,对于一个状态s,智能体根据当前策略(网络输出)会得到各个动作的Q值。将这些Q值通过Softmax函数转换为一个概率分布p_s(a),表示在当前状态下选择各个动作的倾向性。然后,计算这个概率分布的信息熵H(s) = -Σ p_s(a) * log₂ p_s(a)。信息熵H(s)越大,表示智能体在该状态下对各动作的价值判断越不确定(概率分布越均匀),反之则越确定。 2. 将不确定性测度与探索率ε关联:研究建立了一个系统不确定性函数H_ε(s),其值受探索率ε影响。基本思想是,当智能体处于高不确定性状态时,应鼓励其进行更多探索(增大ε);当处于低不确定性状态时,则应倾向于利用已有知识(减小ε)。 3. 设计自适应调节机制:为了动态调整ε,研究团队借鉴了模拟退火(Simulated Annealing)算法的思想,并对其进行了改进。他们设计了一个概率接受准则:比较当前状态st和下一状态s{t+1}的不确定性测度H(st)和H(s{t+1})。如果H(s_{t+1}) ≤ H(st),说明采取的动作降低了不确定性,则倾向于接受该动作并降低探索率。如果H(s{t+1}) > H(s_t),说明不确定性增加,则以一个概率p = exp[-(H(st) - H(s{t+1}))/T] 来决定是否增加探索率,其中T是一个“温度”参数,随着训练进行而衰减。这个机制允许算法有一定概率跳出局部最优。 4. 优化退火过程:为了避免传统模拟退火容易陷入局部最优和收敛慢的问题,研究进一步引入了粒子群优化算法中的惯性权重思想,将线性降温模型改为振荡式冷却。他们设计了一个复杂的冷却参数α调整公式,使其在训练初期在大范围内振荡,增强全局搜索能力;在训练后期振荡幅度减小,专注于局部精细搜索。这一改进旨在加速寻优过程并提高找到全局最优解的可能性。
最后,在实验验证阶段,研究团队在OpenAI Gym平台上的7个经典Atari 2600游戏环境(Lunar Lander, Hero, Asterix, Beam Rider, Breakout, Sea Quest, Space Invaders)中对AU-D3QN算法进行了性能测试。他们将AU-D3QN与标准的DQN算法以及未加入自适应探索的D3QN算法进行了对比。实验以智能体在连续50轮游戏中的平均累积奖励作为核心评价指标。训练过程中,经验回放缓冲区大小为1,000,000,最小批处理样本为256,折扣因子为0.99,学习率为0.0002。
实验获得了详实的结果。在各个游戏环境中,AU-D3QN算法均展现出显著优势。以Lunar Lander环境为例,从平均奖励曲线图可以看出,AU-D3QN在前期的学习速度远快于D3QN和DQN,能更快地获得高奖励。在收敛速度上,AU-D3QN大约在400轮训练后开始收敛,而D3QN需要约600轮,DQN则更慢。更重要的是,AU-D3QN收敛后的奖励曲线波动更小,表现更为稳定。在Hero和Asterix等更复杂的游戏中,AU-D3QN的优势同样明显,它不仅在前期能迅速学习到有效策略,在训练后期获得的平均奖励峰值也高于对比算法,且奖励值的波动幅度更小,表明其策略更鲁棒。研究还对比了固定探索率(ε=0.1, 0.5)与自适应探索策略的效果,结果显示自适应策略在前期探索和后期稳定利用方面取得了更好的平衡。论文提供的汇总数据表清晰地显示,在所有7个测试环境中,AU-D3QN算法获得的最终最大平均奖励值均高于D3QN和DQN算法,例如在Beam Rider环境中,AU-D3QN获得了3737.45的奖励,显著高于D3QN的2434.36和DQN的2123.65。这些数据强有力地支持了算法的有效性。
基于上述设计与实验结果,本研究得出的核心结论是:所提出的AU-D3QN算法通过融合Double DQN和Dueling DQN结构,有效缓解了深度强化学习中的Q值过估计问题;同时,通过基于信息熵的系统不确定性测度与改进的模拟退火算法,实现了探索力度的自适应动态调节,从而更好地平衡了探索与利用。实验证明,该算法在多个经典控制任务中,相较于基准DQN算法,在收敛速度、学习稳定性以及最终性能上均有显著提升。
本研究的价值体现在理论与实践两个方面。在科学价值上,它为解决深度强化学习的两个经典难题提供了新的思路和一种有效的混合方法,特别是将信息熵用于量化学习进程中的不确定性,并与优化算法结合进行策略调整,具有一定的创新性。在应用价值上,AU-D3QN算法展现出的更快收敛速度和更强稳定性,使其在需要在线学习与决策的复杂系统(如智能游戏AI、机器人实时控制、自适应资源管理等)中具有潜在的应用前景。
本研究的亮点突出。首先,在方法学上具有显著的集成创新性:它不是简单堆砌现有技术,而是将Double DQN、Dueling DQN、信息熵理论、模拟退火及粒子群优化思想有机融合,构建了一个统一的算法框架。其次,其提出的自适应探索机制并非简单的线性衰减,而是基于对智能体内部认知状态(不确定性)的实时评估进行非线性、概率性的动态调整,更符合复杂环境下的学习逻辑。最后,研究进行了广泛而严谨的实验验证,在多个具有不同特性的标准测试环境中均取得了一致性的性能提升,结论可靠。这些工作共同推动了对深度强化学习智能体自适应决策机制的深入理解。