类型a(该文档报告了一项原创性研究):
1. 作者与发表信息
本文的主要作者包括:Chengpeng Hu、Ziqi Wang、Tianye Shu、Hao Tong(IEEE Graduate Student Member)、Julian Togelius(IEEE Senior Member)、Xin Yao 和 Jialin Liu(IEEE Senior Member)。研究单位涉及南方科技大学计算机科学与工程系、可信自主系统研究院(RITAS)以及美国纽约大学等。该论文发表于 IEEE Transactions on Games 期刊,2023年6月第15卷第2期。
2. 学术背景
研究领域为 通用视频游戏AI(General Video Game AI, GVGAI),聚焦增强 强化学习(Reinforcement Learning, RL) 在未见游戏关卡中的泛化能力。传统RL算法在训练过的游戏或关卡中表现优异,但在新关卡中泛化能力有限,而GVGAI竞赛提出需开发能适应未训练关卡的AI代理。本文的目标是提出一种新型 双观察强化学习(Dual-Observation RL, DORL) 技术,通过结合全局与局部观察(Global and Local Observations, GO/LO)及 瓦片向量编码(Tile-Vector Encoding),提升模型对新关卡的适应能力。
3. 研究流程与方法
研究分为以下核心步骤:
(1) 数据与实验平台
- 使用 GVGAI学习竞赛平台(2017-2021年五届竞赛数据),包含手动设计的 三款游戏:资源收集类(GoldDigger)、生存类(TreasureKeeper)、迷宫类(WaterPuzzle),各游戏提供两个训练关卡和三个测试关卡(通过扰动或组合训练关卡生成)。
(2) 方法设计
- 双观察输入:将游戏画面转换为 全局观察(GO) 和局部观察(LO)。GO通过扩展原始画面确保角色居中,LO则截取角色周围5×5瓦片区域。
- 瓦片向量编码:构建 瓦片字典(Tile Dictionary),将画面分割为瓦片网格,基于10个关键像素的RGB均值计算曼哈顿距离匹配字典条目,最终生成 独热编码矩阵(One-Hot Matrix)。
- 算法实现:将DORL整合至三种RL算法(PPO、A2C、DQN),使用CNN网络分别处理GO和LO,经全连接层输出动作策略。
- 训练优化:采用 随机初始位置 增加数据多样性,并对比 确定性策略(贪婪选择)与 随机策略(基于Q值的缩放Softmax)。
(3) 实验分析
- 对比实验:设置四种输入类型(G1: 纯像素GO;G2: 像素GO+LO;G3: 编码GO;DORL: 编码GO+LO)和三组RL算法(PPO、A2C、DQN)。
- 性能指标:通过 平均得分 和 胜率(10次独立运行)评估关卡通性能。
4. 主要结果
- GoldDigger(密集奖励):DORL显著优于单观察输入,例如PPO-DORL在测试关卡中平均得分比PPO-G1提高52%。随机策略帮助DQN避免局部最优(如关卡2中得分从-1.2提升至105.8)。
- TreasureKeeper(周期性奖励):A2C-G3表现最优(平均得分35),但DORL整体稳定性更高。DQN-DORL胜率较DQN-G1提升40%。
- WaterPuzzle(稀疏奖励):DORL在训练关卡表现良好(平均得分15),但测试关卡泛化能力有限,显示稀疏奖励对RL的挑战性。
- 算法对比:PPO-DORL在2021年竞赛中作为基线代理(Arcane)胜率超规划算法(如OLETS)。
5. 结论与价值
- 科学价值:证明了 局部观察 对泛化的关键作用,瓦片编码有效压缩状态空间。
- 应用价值:为游戏AI设计提供了可复用的技术框架(代码已开源),推动了RL在非确定性环境中的适应性研究。
- 局限:稀疏奖励游戏的泛化仍需改进,未来需探索跨游戏知识迁移。
6. 研究亮点
- 双观察机制:首次在GVGAI中同时利用GO和LO,增强局部模式识别能力。
- 瓦片编码创新:通过预计算字典处理新关卡中的未知瓦片,提升计算效率。
- 竞赛实践验证:DORL在2020-2021年GVGAI竞赛中作为基准算法表现卓越。
7. 其他
- 论文附录提供了 Wilcoxon秩和检验(Wilcoxon Rank-Sum Test)的详细统计结果,验证DORL的显著性优势(p<0.05)。
- 研究受广东省重点实验室、国家自然科学基金等支持。