文摘对于智能网联车辆(connected automated vehicle,CAV)来说,上匝道合并是一项具备挑战性的任务,考虑到未来一段时间内有CAV和人工驾驶车辆(human-drive vehicle,HAV)的混合交通将存在于更多的交通场景中。根据合流区交通特性,将多车协同汇入表示为马尔可夫决策过程,建立了同时考虑车辆安全和效率的奖励函数。基于分布式多智能体强化学习(muti-agent reinforcement learning,MARL)框架提出中心式训练分散式执行的改进框架(centralized training and decentralized execution,CTDE)的MARL算法框架,节省了单智能体上的计算资源。建立基于两种框架的优势动作评论家(advantage actor critic,A2C)和近端策略优化(proximal policy optimization,PPO)两种控制算法。仿真实验结果表明,所建立的改进算法的整体性能优于原算法,提升了车辆平均行驶速度,满足最小车头时距同时降低了碰撞率和汇入等待时长,满足了合流区车辆的通行安全和提高了通行效率。