基于改进深度强化学习方法的单交叉口信号控制被引量：16

Signal Control of Single Intersection Based on Improved Deep Reinforcement Learning Method

下载PDF

导出

摘要利用深度强化学习技术实现路口信号控制是智能交通领域的研究热点。现有研究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题,但这些研究往往忽略了信号灯状态对动作选择的影响以及经验池中的数据采样效率,导致训练过程不稳定、迭代收敛较慢等问题。为此,文中在智能体模型设计方面,将信号灯状态纳入状态设计,并引入动作奖惩系数来调节智能体动作选择,以满足相位最小绿灯时间和最大绿灯时间的约束。同时,结合短期内交通流存在的时序相关性,文中采用优先级序列经验回放(Priority Sequence Experience Replay,PSER)的方式来更新经验池中序列样本的优先级,使得智能体获取与交通状况匹配度更高的前序相关样本,并通过双Q网络和竞争式Q网络来进一步提升DQN(Deep Q Network)算法的性能。最后,以杭州市萧山区市心中路和山阴路形成的单交叉口为例,在仿真平台SUMO(Simulation of Urban Mobility)上对算法进行验证,实验结果表明,提出的智能体模型优于无约束单一状态模型,在此基础上提出的算法能够有效缩短车辆平均等待时间和路口总排队长度,控制效果优于实际配时策略以及传统的DQN算法。 Using deep reinforcement learning technology to achieve signal control is a researches hot spot in the field of intelligent transportation.Existing researches mainly focus on the comprehensive description of traffic conditions based on reinforcement learning formulation and the design of effective reinforcement learning algorithms to solve the signal timing problem.However,the influence of signal state on action selection and the efficiency of data sampling in the experience pool are lack of considerations,which may result in unstable training process and slow convergence of the algorithm.This paper incorporates the signal state into the state design of the agent model,and introduces action reward and punishment coefficients to adjust the agent’s action selection in order to meet the constraints of the minimum and maximum green light time.Meanwhile,considering the temporal correlation of short-term traffic flow,the PSER(Priority Sequence Experience Replay)method is used to update the priorities of sequence samples in the experience pool.It facilitates the agent to obtain the preorder correlation samples with higher matching degree corresponding to traffic conditions.Then the double deep Q network and dueling deep Q network are used to improve the performance of DQN(Deep Q Network)algorithm.Finally,taking the single intersection of Shixinzhong Road and Shanyin Road,Xiaoshan District,Hangzhou,as an example,the algorithm is verified on the simulation platform SUMO(Simulation of Urban Mobility).Experimental results show that the proposed agent model outperforms the unconstrained single-state agent models for traffic signal control problems,and the algorithm proposed in the paper can effectively reduce the average waiting time of vehicles and total queue length at the intersection.The general control performance is better than the actual signal timing strategy and the traditional DQN algorithm.

作者刘志曹诗鹏沈阳杨曦 LIU Zhi;CAO Shi-peng;SHEN Yang;YANG Xi(College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310023,China)

机构地区浙江工业大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2020年第12期226-232,共7页 Computer Science

基金浙江省公益技术研究计划项目(LGG20F030008) 浙江省自然科学基金项目(LY20F030018)。

关键词信号控制动作奖惩系数多指标系数加权优先级序列经验回放深度Q网络 Signal control Action reward and punishment coefficient Weighted multi-index coefficient Priority sequence experience replay Deep Q Network

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1赖建辉.基于D3QN的交通信号控制策略[J].计算机科学,2019,46(S11):117-121. 被引量：8
2Li Li,Yisheng Lv,Fei-Yue Wang.Traffic Signal Timing via Deep Reinforcement Learning[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254. 被引量：71
3孙浩,陈春林,刘琼,赵佳宝.基于深度强化学习的交通信号控制方法[J].计算机科学,2020,47(2):169-174. 被引量：28

二级参考文献3

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：332
2王飞跃.平行控制:数据驱动的计算控制方法[J].自动化学报,2013,39(4):293-302. 被引量：130
3Li Li,Yisheng Lv,Fei-Yue Wang.Traffic Signal Timing via Deep Reinforcement Learning[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254. 被引量：71

共引文献94

1吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：15
2吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：29
3夏新海.多Agent强化学习下的城市路网自适应交通信号协调配时决策研究综述[J].交通运输研究,2017,3(2):17-23. 被引量：2
4刘昕,王晓,张卫山,汪建基,王飞跃.平行数据:从大数据到数据智能[J].模式识别与人工智能,2017,30(8):673-681. 被引量：40
5莫红,郝学新.时变论域下红绿灯配时的语言动力学分析[J].自动化学报,2017,43(12):2202-2212. 被引量：5
6Gang Bao,Yuanyuan Chen,Siyu Wen,Zhicen Lai.Stability Analysis for Memristive Recurrent Neural Network and Its Application to Associative Memory[J].自动化学报,2017,43(12):2244-2252. 被引量：2
7陈希亮,曹雷,何明,李晨溪,徐志雄.深度逆向强化学习研究综述[J].计算机工程与应用,2018,54(5):24-35. 被引量：18
8殷林飞,余涛.基于深度Q学习的强鲁棒性智能发电控制器设计[J].电力自动化设备,2018,38(5):12-19. 被引量：14
9夏新海.交互协调强化学习下的城市交通信号配时决策[J].计算机工程与应用,2018,54(11):265-270. 被引量：3
10Chen Lv,Dongpu Cao,Yifan Zhao,Daniel J. Auger,Mark Sullman,Huaji Wang,Laura Millen Dutka,Lee Skrypchuk,Alexandros Mouzakitis.Analysis of Autopilot Disengagements Occurring During Autonomous Vehicle Testing[J].IEEE/CAA Journal of Automatica Sinica,2018,5(1):58-68. 被引量：19

同被引文献91

1石琦,方勇,胡华,刘志钢.平面信号控制交叉口有轨电车与机动车交通冲突风险评价模型[J].中国安全生产科学技术,2020,16(S01):147-151. 被引量：2
2孙立军,刘喜平.路面使用性能的标准衰变方程[J].同济大学学报（自然科学版）,1995,23(5):512-518. 被引量：125
3杜二鹏,马松林,景海民.基于灰色系统理论的沥青路面使用性能预测[J].同济大学学报（自然科学版）,2010,38(8):1161-1164. 被引量：36
4张萌萌,贾磊,邹难,周丽.单点交叉口鲁棒优化信号配时研究[J].公路交通科技,2011,28(1):107-111. 被引量：21
5金勇,姚荣涵.单点交叉口固定信号配时优化模型[J].大连交通大学学报,2011,32(6):30-35. 被引量：8
6赵伟涛,杨威,岳一博.考虑车辆排放的城市信号交叉口优化控制研究[J].武汉理工大学学报（交通科学与工程版）,2012,36(5):911-915. 被引量：10
7聂建强,徐大林.基于模糊Q学习的分布式自适应交通信号控制[J].计算机技术与发展,2013,23(3):171-174. 被引量：3
8朱和,常玉林.基于灵活相位的双向绿波协调控制[J].公路交通科技,2013,30(7):140-143. 被引量：18
9李岩,南斯睿,马静,周文辉,陈宽民.降雨天气单点交叉口交通信号控制优化方法[J].交通运输工程学报,2018,18(5):185-194. 被引量：9
10卢顺达,程琳.非对称相位相序方式下的双向绿波协调控制图解法的优化[J].公路交通科技,2015,32(1):128-132. 被引量：30

引证文献16

1黄文满.基于Synchro系统的典型十字型交叉口信号优化[J].交通与运输,2024,40(S01):101-104.
2卢涛,万凌峰,李妍,张心睿,王润民.基于V2X的智能网联交叉口信号控制系统设计[J].计算机技术与发展,2021,31(10):161-167. 被引量：4
3徐翠翠,徐艳华.非对称耦合网络阵列信号传输过程同步控制建模研究[J].自动化与仪器仪表,2021(11):10-14. 被引量：1
4高航,王伟光.基于深度强化学习的道路信号灯控制算法[J].计算机仿真,2021,38(10):154-159. 被引量：6
5周滟.基于深度学习网络的智能交通信号控制研究[J].单片机与嵌入式系统应用,2022,22(1):17-20. 被引量：4
6晏弼成,刘念,王琨,彭北洋.一种平面交叉路口交通信号控制新方法[J].信息技术,2022,46(6):54-59.
7唐慕尧,周大可,李涛.结合状态预测的深度强化学习交通信号控制[J].计算机应用研究,2022,39(8):2311-2315. 被引量：8
8赵乾,张灵,赵刚,金盛.双环相位结构约束下的强化学习交通信号控制方法[J].交通运输工程与信息学报,2023,21(1):19-28. 被引量：2
9王志建,龙顺忠,李颖宏.基于正交试验的感应控制参数组合优化[J].浙江大学学报（工学版）,2023,57(6):1128-1136. 被引量：2
10张国有,宋世峰.基于D3QN的交通灯控制优化[J].计算机与现代化,2023(7):30-35.

二级引证文献30

1胡实,杨钟玮.基于深度强化学习驱动的智能交通信号控制研究[J].交通与运输,2024,40(S01):187-189.
2樊晟姣.新型智慧城市建设背景下智能交通系统设计分析[J].电子制作,2022,30(2):29-32. 被引量：4
3荣少华,佘红艳,王松浩,欧阳波涛.基于C-V2X的交通信号采集系统设计及测试研究[J].交通与运输,2022,38(2):73-77. 被引量：3
4夏源.电子信息技术在智能交通信号控制系统中的运用[J].电子技术与软件工程,2022(8):90-94. 被引量：3
5李卓姌,李嘉,鲁工圆.自动车环境下交叉口无信号混合控制策略研究[J].北京交通大学学报,2022,46(6):27-35. 被引量：1
6廖熙雯,冷甦鹏,明昱君,李天扬.基于数字孪生的城市交通流智能预测与导引策略[J].电信科学,2023,39(3):70-79. 被引量：2
7李博,刘子寒,张子晴,季军.工业建筑给排水设计中存在的问题及解决措施[J].科技风,2023(10):80-82. 被引量：5
8陆文骏.嵌入式智能交通信号远程控制系统设计[J].太原学院学报（自然科学版）,2023,41(2):64-70. 被引量：3
9华贇,王祥丰,金博.面向城市交通信号优化的多智能体强化学习综述[J].运筹学学报,2023,27(2):49-62. 被引量：2
10徐楚原.基于深度强化学习的智能单灯照明控制模型[J].信息与电脑,2023,35(11):86-88.

1於嘉闻,龙爱华,邓晓雅,刘昀东,何新林,张继.湄公河流域生态系统服务与利益补偿机制[J].农业工程学报,2020,36(13):280-290. 被引量：5
2刘晋宏,孔德帅,靳乐山.生态补偿区域的空间选择研究——以青海省国家重点生态功能区转移支付为例[J].生态学报,2019,39(1):53-62. 被引量：20
3金森元,尤伟军.基于相位调整响应时间的现代有轨电车优先控制策略研究[J].现代城市轨道交通,2020(10):57-64. 被引量：2
4吴大伟.基于视频检测技术的自适应信号灯配时算法[J].山西建筑,2020,46(5):196-198.
5周力(摄影/文).一百年甜甜爱爱甜爱路[J].上海故事,2020,0(3).
6牟海维,戚先锋,刘彦昌,孙明港,祁妍嫣.单交叉口多目标联合优化的信号配时研究[J].电子测量与仪器学报,2020,32(9):62-68. 被引量：14
7秦鸿权.城市交通路口信号控制存在的问题及对策分析[J].建材与装饰,2020,0(4):262-263. 被引量：2
8李靖丰,胡小敏.车联网背景下探究交叉口感应信号控制优化设计[J].粘接,2020,44(12):167-171.
9张婷悦,张凯兵.基于稀疏表示的无参考型超分辨图像质量评价方法[J].西安工程大学学报,2020,34(5):20-26. 被引量：3
10刘树青,张行.基于强化学习的城市快速路入口匝道信号控制方法研究[J].机电信息,2020(36):83-85. 被引量：1

计算机科学

2020年第12期

浏览历史

内容加载中请稍等...

基于改进深度强化学习方法的单交叉口信号控制被引量：16

参考文献3

二级参考文献3

共引文献94

同被引文献91

引证文献16

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于改进深度强化学习方法的单交叉口信号控制 被引量：16

参考文献3

二级参考文献3

共引文献94

同被引文献91

引证文献16

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于改进深度强化学习方法的单交叉口信号控制被引量：16