分享自:

基于代理辅助进化Q学习的黑盒动态时间关联优化问题

期刊:ieee transactions on evolutionary computationDOI:10.1109/tevc.2022.3179256

动态时间关联黑箱优化问题的代理辅助进化Q学习研究学术报告


一、作者及发表信息

本研究由Tuo Zhang(西安电子科技大学)、Handing Wang(IEEE会员,西安电子科技大学)、Bo Yuan(IEEE会员,南方科技大学)、Yaochu Jin(IEEE会士,比勒菲尔德大学/萨里大学)及Xin Yao(IEEE会士,南方科技大学)合作完成,发表于IEEE Transactions on Evolutionary Computation 2023年10月刊(第27卷第5期)。


二、学术背景

  1. 研究领域:动态优化问题(Dynamic Optimization Problems, DOPs)中的动态时间关联优化问题(Dynamic Time-Linkage Problems, DTLPs)。
  2. 研究动机:传统进化动态优化(Evolutionary Dynamic Optimization, EDO)方法忽略时间关联性(前序决策影响未来环境),而强化学习(Reinforcement Learning, RL)虽适用于决策序列问题,但现有RL方法假设目标函数可观测且决策空间离散,无法直接应用于连续黑箱DTLPs。
  3. 目标:提出一种融合代理模型与Q学习的进化算法框架(SQL-EDO),解决连续黑箱DTLPs的长期优化问题。

三、研究流程与方法

1. 问题建模与框架设计

  • 动态时间关联问题定义:将DTLP建模为马尔可夫决策过程(MDP),其中状态(state)为环境参数,动作(action)为候选解,奖励(reward)为即时适应度。
  • 算法框架
    • 探索阶段:使用粒子群优化(Particle Swarm Optimization, PSO)在每个时间步搜索候选解。
    • 状态提取:从PSO种群中提取最小/最大适应度作为2维状态(偏置bias和不确定范围uncertainty range)。
    • 状态预测:通过混合非线性回归模型(二次函数、S型函数、三角函数)预测下一状态。
    • Q值评估:基于径向基函数网络(Radial Basis Function Network, RBFN)构建代理模型,近似Q函数并更新历史模型。

2. 关键技术实现

  • 自适应状态预测器
    • 输入:历史状态-解对及时间步。
    • 维度缩减:通过非线性相关系数筛选关键维度。
    • 模型选择:基于Wilcoxon秩和检验选择误差分布相似的模型,加权组合预测结果。
  • 代理辅助Q学习
    • RBFN建模:以状态-解对为输入,Q值为输出,通过K均值聚类确定中心点。
    • Q值更新:结合即时奖励与下一状态最大Q值(公式:Q(s,x) = (1-α)·Q̂(s,x) + α·(r + η·max Q̂(s',x')))。
  • 异常检测:基于孤立森林(Isolation Forest)剔除Q值异常的候选解,确保决策鲁棒性。

3. 实验验证

  • 基准问题
    • 动态峰值基准(Moving Peaks Benchmark, MPB)和动态旋转峰值基准(Dynamic Rotation Peak Benchmark, DRPB),引入时间关联参数b。
  • 对比算法
    • PSO+Predictor(仅预测未来适应度)
    • NLPSO(邻居学习PSO,传统动态优化方法)

四、主要结果

  1. 状态预测有效性
    • 在DRPB问题上,状态预测器对时间关联参数b的预测误差(%)显著低于随机变化类型(图3)。集成预测器误差比单一模型降低30%(图4)。
  2. Q学习的长期优化优势
    • 当时间关联强度b增大时(b=50/100),SQL-PSO的累积适应度显著高于PSO(图5)。例如,b=100时,SQL-PSO在MPB上累积适应度提高120%。
  3. 高维与多峰问题
    • 在30维DTLPs中,SQL-PSO比NLPSO和PSO+Predictor表现更优(表VI),但对超参数δ(状态相似度阈值)和λ(可靠性指标系数)敏感(补充材料S.I)。

五、结论与价值

  1. 科学价值
    • 首次将代理模型与Q学习结合,解决了连续黑箱DTLPs的长期决策问题,填补了进化计算与强化学习的交叉研究空白。
  2. 应用价值
    • 可应用于实时系统优化(如交通路由、动态资源分配),其中当前决策对未来环境存在反馈影响。
  3. 局限性
    • 高维问题中RBFN训练数据不足可能导致Q函数近似误差;未来需研究更高效的代理模型。

六、研究亮点

  1. 方法创新
    • 提出状态提取与预测器,实现黑箱环境的状态观测。
    • 设计基于RBFN的Q模型集成,解决了连续空间Q值无限更新的难题。
  2. 实验贡献
    • 构建了带时间关联的MPB/DRPB基准问题,推动DTLP研究标准化。

七、其他

  • 代码公开:论文补充材料提供了算法实现(DOI: 10.1109/TEVC.2022.3179256)。
  • 基金支持:中国国家自然科学基金(61976165)、广东省重点实验室(2020B121201001)及德国洪堡教授基金。

(字数:约2200字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com