《交通研究C辑》2025年第171卷刊载了由Hang Yang、Wanjing Ma、Rongjun Cheng、Bing Wu、Yibing Wang和Pengjun Zheng(通讯作者)团队合作完成的研究论文《一种新型博弈方法在混合网络中整合交通分配与信号控制以提升效率与环境性能》。该研究针对传统Stackelberg博弈模型在混合交通网络(含高速公路与地面道路)中存在的领导者-追随者(leader-follower)动态僵化问题,提出了一种创新的集成模型LCMVTM(Level-Change-MPC-VT-Meso-Emission),通过动态角色转换机制和强化学习算法,显著提升了网络整体性能和环保表现。以下是研究的详细报告:
一、作者团队与发表信息
- 作者单位:宁波大学海运与交通学院(第一单位)、东南大学现代城市交通技术协同创新中心、同济大学道路与交通工程教育部重点实验室、浙江大学智能交通系统研究所
- 期刊:*Transportation Research Part C: Emerging Technologies*(171卷,2025年1月26日在线发表)
- 通讯作者:Pengjun Zheng(zhengpengjun@nbu.edu.cn)
二、学术背景与研究目标
科学问题
城市混合交通网络的拥堵与排放问题日益严峻,传统Stackelberg博弈模型在交通分配(Traffic Assignment, TA)与信号控制(Signal Control, SC)的联合优化(Combined Assignment and Control, CAC)中存在刚性角色划分缺陷:当局(authority)作为领导者需预判驾驶员行为,但高峰时段需求波动时预测失效,导致系统性能下降。
创新目标
- 动态角色转换:基于可变信息标志(Variable Message Signs, VMS)的用户服从率(compliance rate)触发领导者-追随者角色动态切换,增强系统灵活性。
- 多目标优化:通过Q-learning算法平衡出行成本与排放累积速率,实现效率与环保的双重提升。
三、研究方法与技术流程
1. 模型框架
研究提出LCMVTM集成模型,包含以下核心模块:
- 动态Stackelberg博弈模型:打破传统双层规划(bi-level programming)的固定角色假设,允许“当局-用户”与“用户-当局”两种模式动态切换(图5)。切换阈值设定为用户对VMS的服从率≤0.65且持续3个控制步长(每步5分钟)。
- VT-Meso排放模型:融合宏观交通流模型(ACTM、Kashani)与微观排放模型(VT-micro),通过空间平均速度、密度、流量等参数估算污染物(CO₂、NOx、HC、PM)排放(式18)。
- MPC(模型预测控制)中央控制器:滚动优化时域为10分钟,控制时域5分钟,采用Q-direct算法(融合Q-learning与直接参数修正)求解全局最优解。
2. 实验设计
- 仿真平台:基于TransModeler构建混合网络(含4个匝道、6个交叉口),通过TSMAPI接口连接MATLAB 2022实现硬件在环测试。
- 基准对比:设计7种控制策略(S0-S7,表3),涵盖非协同分散控制(S0)、ALINEA匝道控制(S1-S4)、分散式MPC(S5-S6)及集中式MPC(S7-LCMVTM)。
- 性能指标:总出行成本(veh*h)、排放累积量(kg)、停车次数(stop&go)、Lyapunov稳定性指数(η)。
3. 算法创新
- Q-direct算法:将策略梯度(policy gradient)与直接参数修正结合,优化信号配时与匝道调节率(式33)。奖励函数设计为排放累积速率的负比值(式34),平衡效率与环境目标。
- 角色切换函数:基于改进的Logit公式(式19)预测路径选择,通过Dijkstra算法(式20-21)动态更新链路旅行时间。
四、主要研究结果
1. 效率提升
- 出行成本降低:LCMVTM(S7-MAS)总出行成本较初始方案(S0-nonMAS)下降30%以上(表4),较分散式MPC(S5)降低13.08%。
- 稳定性增强:Lyapunov指数η达0.703(MAS条件),表明角色切换不会引发额外波动(图5)。
2. 环境效益
- 排放减少:CO₂、NOx、HC、PM累积排放量较S0-nonMAS分别下降16.98%、23.05%、26.51%、40.08%(图7)。
- 排放速率控制:高峰时段(14-16控制步长)排放增速下降43.69%,归因于停车次数减少与流量均衡分配。
3. 多智能体(MAS)优势
- 服从率优化:MAS结构下VMS服从率谷值提升约15%(图6),缩短系统恢复至稳态的时间(η提升11.94%)。
- 协同效应:集中式控制(S7)较分散式(S6)进一步降低出行成本7%,验证了混合网络全局优化的必要性。
五、结论与价值
科学价值
- 理论突破:首次在CAC问题中引入动态Stackelberg博弈,揭示了信号控制与交通分配在双层规划中的角色互换机制。
- 方法创新:VT-Meso模型实现了宏观-微观排放评估的无缝衔接,Q-direct算法为多目标强化学习提供了新范式。
应用价值
- 智能交通系统:LCMVTM可嵌入城市交通管理中心,实时优化信号配时与路径诱导,尤其适用于高峰时段动态调控。
- 环保政策支持:排放评估框架为低碳交通管理提供了量化工具,如拥堵收费或排放敏感路由。
六、研究亮点
- 动态角色机制:通过服从率触发的角色切换解决了传统博弈模型在需求波动时的预测失效问题。
- 多目标协同:首次将排放累积速率作为强化学习奖励函数,实现效率与环保的帕累托优化。
- 跨尺度建模:VT-Meso模型填补了从宏观交通流参数直接估算网络级排放的技术空白。
七、其他发现
- MAS结构增效:即使采用相同控制策略,MAS架构可通过智能体协同将性能提升9%-13%(表4),凸显了分布式决策在大型交通网络中的潜力。
- 实证阈值验证:服从率阈值0.65与Papageorgiou(1990)的理论建议一致,为实际应用提供了可靠参数。
(全文约2400字)