多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络(doub...多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络(double deep Q network,double DQN)模型基础上提出了一种基于注意力机制的深度强化学习模型进行交通信号控制。将压缩激活网络(squeeze and excitation networks,SENet)注意力机制添加到三维卷积神经网络中,通过建模特征图通道间的相互依赖来增强卷积神经网络的表征质量,从而输出最优的交通信号控制动作。实验结果表明,算法表现出了良好的交通信号控制效果,且具有显著的稳定性。展开更多
文摘多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络(double deep Q network,double DQN)模型基础上提出了一种基于注意力机制的深度强化学习模型进行交通信号控制。将压缩激活网络(squeeze and excitation networks,SENet)注意力机制添加到三维卷积神经网络中,通过建模特征图通道间的相互依赖来增强卷积神经网络的表征质量,从而输出最优的交通信号控制动作。实验结果表明,算法表现出了良好的交通信号控制效果,且具有显著的稳定性。