本文档属于类型a(单一原创研究),以下是针对中文读者撰写的学术报告:
人类评估反馈与示范引导下的多智能体协作学习研究
作者:Mehul Verma(荷兰阿姆斯特丹自由大学)与Erman Acar(荷兰阿姆斯特丹自由大学/莱顿大学)
期刊:发表于HHAI2022(Augmenting Human Intellect),IOS出版社出版
本研究隶属于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)领域,聚焦于如何通过人类反馈(Interactive RL)与专家示范(Inverse RL)促进独立智能体间的协作行为。研究背景基于两大现实需求:
1. 人工智能与人类协同的瓶颈:现有AI在模式识别等领域超越人类,但在因果推理、常识决策等需协作的任务中表现不足;
2. 多智能体协作的挑战:传统MADRL存在非平稳性(non-stationarity)、维度灾难等问题,且缺乏定量评估协作行为的实验环境。
研究目标包括:
- 设计新型游戏环境Space Cannons以量化协作程度;
- 验证人类反馈与示范能否加速协作策略的涌现。