本文由Yuto Kihira、Yusuke Koda、Koji Yamamoto、Takayuki Nishio和Masahiro Morikura共同撰写,作者均来自日本京都大学信息学研究科。该研究论文发表在2020年的IEEE 92nd Vehicular Technology Conference (VTC2020-Fall)上,题为“Adversarial Reinforcement Learning-based Robust Access Point Coordination against Uncoordinated Interference”。该研究主要关注无线局域网(WLAN)中的多接入点(AP)协调问题,特别是在面对未协调的干扰时,如何通过对抗性强化学习(Adversarial Reinforcement Learning, RARL)来提高系统的鲁棒性。
随着无线局域网(WLAN)的普及,尤其是在高密度部署环境下,多个AP之间的干扰问题日益严重。IEEE 802.11be标准正在讨论中,旨在通过多AP协调来提高频谱效率。传统的基于强化学习(Reinforcement Learning, RL)的多AP协调方法虽然能够减少AP之间的碰撞概率,但在面对未协调AP的干扰时表现不佳。未协调AP的帧传输可能会对已协调AP的传输造成严重干扰,导致吞吐量下降。因此,本研究提出了一种基于对抗性强化学习的多AP协调方法,旨在提高系统在面对未协调干扰时的鲁棒性。
本研究的主要流程包括以下几个步骤:
系统模型构建
研究假设有多个协调的AP和一个未协调的AP。协调的AP通过有线回程网络与中央代理进行通信,而未协调的AP则独立运行,不与其他AP共享传输信息。研究的主要目标是通过对抗性强化学习,使中央代理能够学习到在面对未协调AP干扰时的鲁棒传输策略。
对抗性强化学习框架
研究采用了对抗性强化学习框架,其中中央代理与一个假设的对抗性AP进行竞争学习。对抗性AP的目标是通过密集的帧传输来干扰协调AP的传输,而中央代理则通过学习来避免这些干扰。通过这种竞争学习,中央代理能够经历各种未协调AP的干扰情况,从而学习到鲁棒的传输策略。
马尔可夫游戏建模
研究将中央代理与对抗性AP的竞争建模为一个两玩家的零和马尔可夫游戏(Markov Game)。状态空间包括其他AP的传输状态以及中央代理和对抗性AP的历史传输记录。中央代理和对抗性AP的动作空间分别包括是否传输帧以及选择何种调制和编码方案(MCS)。
学习算法
中央代理和对抗性AP交替进行策略更新。首先,中央代理更新其策略,而对抗性AP的策略保持不变;然后,对抗性AP更新其策略,而中央代理的策略保持不变。这种交替更新过程重复进行,直到达到预定的迭代次数。
仿真评估
研究通过仿真评估了所提出方法的性能,比较了其与两种基线方法(Oracle方法和无对抗性RL方法)的吞吐量和传输概率。仿真结果表明,所提出的方法在面对未协调AP的高传输概率时,能够显著提高系统的吞吐量。
吞吐量提升
仿真结果显示,当未协调AP的传输概率较高时,所提出的对抗性强化学习方法在系统吞吐量方面优于无对抗性RL方法。然而,当未协调AP的传输概率较低时,所提出的方法表现略逊于无对抗性RL方法。
传输概率调整
中央代理能够根据未协调AP的传输概率动态调整其传输概率,从而避免帧碰撞。这种动态调整使得中央代理在面对未协调AP的不同传输概率时,能够保持较高的吞吐量。
鲁棒性增强
通过对抗性强化学习,中央代理能够学习到在面对未协调AP干扰时的鲁棒传输策略。这种策略使得中央代理在未协调AP的传输概率发生变化时,无需重新学习即可保持较高的性能。
本研究提出了一种基于对抗性强化学习的多AP协调方法,能够有效提高系统在面对未协调AP干扰时的鲁棒性。通过竞争学习,中央代理能够经历各种未协调AP的干扰情况,从而学习到鲁棒的传输策略。仿真结果表明,所提出的方法在面对未协调AP的高传输概率时,能够显著提高系统的吞吐量。然而,当未协调AP的传输概率较低时,所提出的方法表现略逊于无对抗性RL方法。未来的研究可以进一步优化对抗性强化学习框架,以在更广泛的场景下提高系统的性能。
对抗性强化学习的应用
本研究首次将对抗性强化学习应用于无线局域网中的多AP协调问题,提出了一种新颖的鲁棒性学习方法。
动态传输策略
中央代理能够根据未协调AP的传输概率动态调整其传输策略,从而避免帧碰撞,提高系统吞吐量。
鲁棒性增强
通过竞争学习,中央代理能够学习到在面对未协调AP干扰时的鲁棒传输策略,使得系统在未协调AP的传输概率发生变化时,无需重新学习即可保持较高的性能。
本研究还提出了利用协调AP的帧丢失历史来促进中央代理与对抗性AP之间的合理竞争,从而进一步增强了中央代理的鲁棒性。这一设计使得中央代理能够更好地预测对抗性AP的行为,从而制定更有效的传输策略。