动态时间关联黑箱优化问题的代理辅助进化Q学习研究学术报告
一、作者及发表信息
本研究由Tuo Zhang(西安电子科技大学)、Handing Wang(IEEE会员,西安电子科技大学)、Bo Yuan(IEEE会员,南方科技大学)、Yaochu Jin(IEEE会士,比勒菲尔德大学/萨里大学)及Xin Yao(IEEE会士,南方科技大学)合作完成,发表于IEEE Transactions on Evolutionary Computation 2023年10月刊(第27卷第5期)。
二、学术背景
- 研究领域:动态优化问题(Dynamic Optimization Problems, DOPs)中的动态时间关联优化问题(Dynamic Time-Linkage Problems, DTLPs)。
- 研究动机:传统进化动态优化(Evolutionary Dynamic Optimization, EDO)方法忽略时间关联性(前序决策影响未来环境),而强化学习(Reinforcement Learning, RL)虽适用于决策序列问题,但现有RL方法假设目标函数可观测且决策空间离散,无法直接应用于连续黑箱DTLPs。
- 目标:提出一种融合代理模型与Q学习的进化算法框架(SQL-EDO),解决连续黑箱DTLPs的长期优化问题。
三、研究流程与方法
1. 问题建模与框架设计
- 动态时间关联问题定义:将DTLP建模为马尔可夫决策过程(MDP),其中状态(state)为环境参数,动作(action)为候选解,奖励(reward)为即时适应度。
- 算法框架:
- 探索阶段:使用粒子群优化(Particle Swarm Optimization, PSO)在每个时间步搜索候选解。
- 状态提取:从PSO种群中提取最小/最大适应度作为2维状态(偏置bias和不确定范围uncertainty range)。
- 状态预测:通过混合非线性回归模型(二次函数、S型函数、三角函数)预测下一状态。
- Q值评估:基于径向基函数网络(Radial Basis Function Network, RBFN)构建代理模型,近似Q函数并更新历史模型。
2. 关键技术实现
- 自适应状态预测器:
- 输入:历史状态-解对及时间步。
- 维度缩减:通过非线性相关系数筛选关键维度。
- 模型选择:基于Wilcoxon秩和检验选择误差分布相似的模型,加权组合预测结果。
- 代理辅助Q学习:
- RBFN建模:以状态-解对为输入,Q值为输出,通过K均值聚类确定中心点。
- Q值更新:结合即时奖励与下一状态最大Q值(公式:
Q(s,x) = (1-α)·Q̂(s,x) + α·(r + η·max Q̂(s',x')))。
- 异常检测:基于孤立森林(Isolation Forest)剔除Q值异常的候选解,确保决策鲁棒性。
3. 实验验证
- 基准问题:
- 动态峰值基准(Moving Peaks Benchmark, MPB)和动态旋转峰值基准(Dynamic Rotation Peak Benchmark, DRPB),引入时间关联参数b。
- 对比算法:
- PSO+Predictor(仅预测未来适应度)
- NLPSO(邻居学习PSO,传统动态优化方法)
四、主要结果
- 状态预测有效性:
- 在DRPB问题上,状态预测器对时间关联参数b的预测误差(%)显著低于随机变化类型(图3)。集成预测器误差比单一模型降低30%(图4)。
- Q学习的长期优化优势:
- 当时间关联强度b增大时(b=50/100),SQL-PSO的累积适应度显著高于PSO(图5)。例如,b=100时,SQL-PSO在MPB上累积适应度提高120%。
- 高维与多峰问题:
- 在30维DTLPs中,SQL-PSO比NLPSO和PSO+Predictor表现更优(表VI),但对超参数δ(状态相似度阈值)和λ(可靠性指标系数)敏感(补充材料S.I)。
五、结论与价值
- 科学价值:
- 首次将代理模型与Q学习结合,解决了连续黑箱DTLPs的长期决策问题,填补了进化计算与强化学习的交叉研究空白。
- 应用价值:
- 可应用于实时系统优化(如交通路由、动态资源分配),其中当前决策对未来环境存在反馈影响。
- 局限性:
- 高维问题中RBFN训练数据不足可能导致Q函数近似误差;未来需研究更高效的代理模型。
六、研究亮点
- 方法创新:
- 提出状态提取与预测器,实现黑箱环境的状态观测。
- 设计基于RBFN的Q模型集成,解决了连续空间Q值无限更新的难题。
- 实验贡献:
- 构建了带时间关联的MPB/DRPB基准问题,推动DTLP研究标准化。
七、其他
- 代码公开:论文补充材料提供了算法实现(DOI: 10.1109/TEVC.2022.3179256)。
- 基金支持:中国国家自然科学基金(61976165)、广东省重点实验室(2020B121201001)及德国洪堡教授基金。
(字数:约2200字)