TrafSeqFormer：基于多智能体强化学习的序列建模自适应交通信号控制

分享自：
TrafSeqFormer：基于多智能体强化学习的序列建模自适应交通信号控制

交通与运载工程
工程学
信息科学
人工智能
自动化
期刊:IEEE Internet of Things JournalDOI:10.1109/JIOT.2025.3633873
【点击此处】阅读全文、收藏及针对性提问
关于《TrafSeqFormer：利用序列建模与多智能体强化学习实现自适应交通信号控制》的学术研究报告
本研究由Rui Zhao、Haofeng Hu、Yuxin Zhai、Yuze Fan、Fei Gao、Chengyuan Zheng、Zhenhai Gao和Zhengcai Yang共同完成。作者主要来自中国吉林大学汽车工程学院、山东大学控制科学与工程学院以及湖北汽车工业学院科学技术发展研究院。该研究成果发表于2025年11月17日在线发表，并于2026年2月1日正式刊载于《IEEE Internet of Things Journal》第13卷第3期。
一、 学术背景
本研究属于智能交通系统领域，具体聚焦于自适应交通信号控制（Adaptive Traffic Signal Control， ATSC）这一关键问题。随着城市化进程加速，交通拥堵日益复杂，传统交通信号控制方法（如固定配时、基于规则的策略）以及早期的自适应系统（如SCOOT、SCATS）因其依赖预定义策略，难以动态响应复杂多变的实时交通状况，在处理大规模、多交叉口协同场景时尤为乏力。
近年来，深度强化学习（Deep Reinforcement Learning， DRL）为ATSC提供了新思路，它将单个交叉口视为智能体（Agent），通过与环境的交互学习最优控制策略。然而，单智能体方法在多个相互关联的交叉口场景下，由于决策孤立，难以实现全局最优。多智能体强化学习（Multiagent Reinforcement Learning， MARL）框架，特别是集中训练分散执行（Centralized Training and Decentralized Execution， CTDE）范式，成为解决多交叉口协同控制的有希望途径。尽管如此，在大规模场景中（交叉口数量增多），现有MARL方法面临严峻挑战：动作和观测空间呈指数级增长导致数据效率低下；信用分配（Credit Assignment）困难，难以评估单个智能体对全局奖励的贡献；在分散执行阶段，智能体间策略交互不足，影响协同优化效果。
受大型语言模型（如GPT、BERT）中Transformer架构在序列建模上巨大成功的启发，本研究团队旨在开发一种能够有效应对上述挑战的新型MARL框架。因此，本研究的目标是提出并验证一种名为“交通序列Transformer”（TrafSeqFormer）的新框架，该框架利用序列建模和自注意力机制，将多交叉口的联合策略搜索转化为顺序决策过程，旨在提升信用分配效率、数据利用率和智能体协作能力，从而为大规模城市交通系统提供一种可扩展、高效的ATSC解决方案。
二、 研究详细流程
本研究遵循严谨的“问题定义-方法提出-实验验证”流程，具体步骤如下：
1. 问题形式化与框架设计： 首先，研究将多交叉口ATSC问题形式化为一个马尔可夫博弈（Markov Game， MG）。在此框架下，每个交叉口被定义为一个智能体。研究明确定义了智能体的观测空间、动作空间和奖励函数。 * 观测空间：每个智能体（交叉口）在时间步t的观测oi_t包括四个维度：其控制车道内的车辆总数ci_t、车辆平均等待时间τi_t、排队长度（以排队车辆数计）qi_t以及车辆平均速度vi_t。这些观测值均从原始交通数据（车辆数量、速度）中计算得出。 * 动作空间：每个智能体的动作ai_t是其所控交通信号灯的相位选择。研究采用典型的四相位设置（如东西直行、东西左转、南北直行、南北左转）。 * 奖励函数：设计了一个综合四项交通效率指标的加权奖励函数Rt，包括总车辆数（鼓励减少）、平均速度（鼓励提高）、总排队长度（鼓励减少）和总等待时间（鼓励减少）。通过权重平衡各项指标，引导智能体学习优化整体交通流。
2. TrafSeqFormer算法核心设计： 这是本研究最核心的创新部分。TrafSeqFormer是一个基于Transformer编码器-解码器架构的MARL框架，包含环境交互收集模块（EICM）和策略评估优化模块（PEOM）。 * 核心思想：利用多智能体优势分解定理，将寻找联合最优动作的难题，分解为一系列顺序决策问题。具体而言，联合优势函数可以分解为每个智能体在其前序智能体动作条件下的条件优势之和。这允许算法以自回归（Auto-regressive）的方式顺序生成每个智能体的动作，将复杂度从指数级降低到线性级，同时保证了策略改进的正面性。 * 编码器：接收所有智能体的联合观测ot，通过嵌入层和自注意力机制提取高级特征表示ôt，并估计全局状态值函数V(ôt)。其作用类似于评论家（Critic），用于评估当前联合观测的优劣，其损失函数为最小化时序差分误差。 * 解码器：作为策略网络（Actor），以自回归方式生成联合动作at。在训练时，可以利用已采集的历史动作序列并行计算所有动作的概率；在推理（执行）时，则严格按顺序生成：先基于观测生成第一个智能体的动作a1，然后将a1与观测一起输入，生成第二个智能体的动作a2，依此类推。解码器的优化采用近端策略优化（Proximal Policy Optimization， PPO）算法，其目标函数是最大化带有裁剪限制的优势函数估计。 * 算法流程：智能体在EICM中与环境（SUMO仿真平台）交互，收集轨迹数据（观测、动作、奖励）并存入经验回放缓冲区。PEOM则从缓冲区采样数据，利用PPO同时更新编码器（价值网络）和解码器（策略网络）的参数，不断迭代直至策略收敛。
3. 实验设置与评估： 为全面验证TrafSeqFormer的有效性，研究设计了合成场景和真实世界场景两类实验。 * 实验环境与基准方法： * 合成场景：构建了三种不同规模的网格路网：小规模（1x4异质交叉口）、中规模（2x2同质交叉口）和大规模（3x2同质交叉口）。交通流采用泊松分布生成，参数λ设为0.2, 0.4, 0.6以模拟不同拥堵程度。 * 真实场景：使用中国北京东城区、杭州古荡街道和济南东风街道的真实路网和数据，分别包含8、7、12个信号控制交叉口。 * 基准方法：对比方法涵盖了传统规则方法（FixedTime, SOTL, MaxPressure）、先进的深度强化学习方法（PressLight, CoLight）以及多智能体强化学习方法（I-DQN, VF-MAPPO）。 * 评估指标：采用三个关键性能指标：平均排队长度（越低越好）、吞吐量（越高越好）、延迟（越低越好）。 * 实现细节：训练使用Adam优化器，学习率5e-4，PPO裁剪系数0.05。奖励函数权重经调优后设定。所有对比方法均按其原始论文设置参数。
4. 消融实验与分析： 为了解TrafSeqFormer各组成部分的贡献，研究进行了消融实验。 * 组件消融：对比了完整TrafSeqFormer与三个变体：无编码器（w/o Encoder）、无解码器（w/o Decoder）、以及用门控循环单元（GRU）替换Transformer架构（w/o Transformer）。通过比较训练曲线和最终性能下降幅度，评估各部分作用。 * 奖励权重敏感性分析：系统调整了奖励函数中四个分量的权重，观察对最终收敛性能和奖励值的影响，以验证所选权重组合的合理性。
三、 主要研究结果
1. 训练性能： 训练过程显示，TrafSeqFormer能够快速稳定地收敛。相比之下，简单的I-DQN方法无法收敛，表明其难以处理需要复杂协作的任务。PressLight、CoLight和VF-MAPPO也能收敛，但由于奖励函数设计不同，收敛后的奖励值绝对值不具备直接可比性。因此，研究进一步绘制了等待时间、平均速度和排队长度这三个直接反映交通状况的指标曲线。结果显示，TrafSeqformer的等待时间和排队长度曲线始终低于其他算法，平均速度曲线则始终高于其他算法，这直接证明了其策略在提升交通效率方面的优越性。
2. 合成场景性能： 在三个不同规模和交通流量的合成场景中，TrafSeqformer在所有评估指标上均一致且显著地超越了所有基准方法。随着交通流量增加（λ从0.2增至0.6），其优势更加明显。具体数据表明： * 在排队长度方面，相比FixedTime方法最大减少了83%，相比最好的DRL基准方法最大减少了42%。 * 在吞吐量方面，相比FixedTime提升了15%。 * 在延迟方面，相比其他DRL方法至少降低了65%。 这些结果证明了TrafSeqformer通过序列建模和自注意力实现的协同控制，在处理大规模、高负荷交通场景时具有显著优势。
3. 真实世界场景性能： 在北京、杭州、济南三个真实路网的测试中，TrafSeqformer再次展现出卓越的性能。它 consistently实现了更低的排队长度和延迟，以及更高的吞吐量。这验证了该框架不仅适用于简化的合成环境，也能有效处理真实城市交通中复杂的、非均匀的交通流模式，具有良好的泛化能力。
4. 消融实验结果： * 组件重要性：移除编码器、解码器或Transformer中的任何一部分都会导致性能显著下降。其中，用GRU替换Transformer（w/o Transformer）的性能下降最为严重，甚至无法学习到有效策略。这证明了Transformer的自注意力机制对于捕捉智能体间复杂依赖关系、实现有效协作至关重要。尽管保留一半架构（w/o Encoder或w/o Decoder）的变体性能优于w/o Transformer，但仍不及完整模型，说明了编码器-解码器整体架构对于有效处理交通信息和实现智能体协作的必要性。 * 奖励权重敏感性：分析表明，改变奖励函数中任何一项的权重都会对收敛性和最终性能产生显著影响。过度偏重某一指标（如吞吐量）可能会损害其他指标（如等待时间）。研究中选择的平衡权重组合（wnum=0.5, wvol=-0.5, wqueue=-2, wtime=-0.5）能在多个竞争目标间取得最佳权衡，这为实际应用中的参数调优提供了参考。
四、 研究结论与价值
本研究成功提出并验证了TrafSeqformer，这是一个基于Transformer序列建模和多智能体强化学习的新型自适应交通信号控制框架。其核心贡献在于： 1. 理论贡献：将多智能体优势分解定理实例化于大规模ATSC问题，推导出条件自回归联合策略，将并发的联合动作搜索转化为具有线性可扩展性的顺序决策过程。 2. 方法创新：设计了结合集中式价值估计器和条件Transformer解码器的架构。训练时利用并行轨迹保证样本效率，推理时采用自回归解码显式保持策略交互，这与其他CTDE方法在分散执行时缺乏显式策略交互有本质区别。 3. 性能卓越：在合成和真实世界场景的广泛评估中，TrafSeqformer在减少排队长度、提高吞吐量、降低延迟方面均大幅领先现有先进方法，证明了其在提升交通系统级性能、稳定收敛和良好可扩展性方面的强大能力。
该研究的科学价值在于为大规模协同MARL问题提供了一种新颖的序列建模解决方案，通过借鉴自然语言处理中的成功架构，有效解决了信用分配、数据效率和策略交互等关键挑战。其应用价值在于为城市智慧交通管理提供了一个高效、可扩展的ATSC工具，有望在实际部署中显著缓解交通拥堵，提升道路网络运行效率。
五、 研究亮点
核心方法创新：首次将Transformer的编码器-解码器架构与多智能体优势分解定理相结合，应用于交通信号控制领域，创造性地将联合决策问题序列化。
显著性能提升：在多项严格实验中取得了突破性的性能指标，特别是在大规模和高流量场景下，优势明显。
解决关键挑战：直接针对大规模MARL中数据效率低、信用分配难、执行时协作不足等痛点设计解决方案。
理论与工程结合：不仅提出了新的算法框架，还提供了详细的问题形式化（MG）、奖励函数设计以及完整的实验验证流程，具有很高的可复现性和参考价值。
兼顾训练与推理：提出的框架在训练阶段利用并行化保证效率，在推理阶段通过自回归保证智能体间的策略协调，兼顾了性能与实用性。
六、 其他有价值内容
论文还对未来工作进行了展望，包括将TrafSeqformer扩展到更复杂的场景（如人车混行），以及与网联自动驾驶车辆等新兴技术结合。此外，作者也提出未来可探索让智能体生成可解释的通信信号，以及研究如何更有效地从多样化环境中进行学习，这些方向都为后续研究提供了有价值的思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问