基于风险避免强化学习的单交叉口配时优化

Signal timing optimization of a single intersection based on risk avoidance reinforcement learning

下载PDF

导出

摘要现有的信号配时强化学习模型大多是风险中立的强化学习模型,其缺点是在线学习中稳定性和鲁棒性较差,需要的运行时间较长,且收敛效果不明显。为了解决存在的这些问题,建立了风险避免强化学习交通信号配时模型,用排队长度差作为模型的交通评价指标。在集成VISSIM-Excel VBAMatlab的仿真平台上进行了仿真实验,分析了风险程度系数对配时方案优劣程度、收敛性的影响;与风险中立的强化学习模型进行对比分析,得出了新模型,它在稳定性方面有较大的改进,收敛速度较快,在交通评价指标上运行效果好。针对交通信号配时优化这类问题,应采用增量风险避免强化学习方法,即风险程度系数应采用小步距递增的方式。 Most of the existing signal timing models are applied as the risk-neutral reinforcement learning model. The disadvantages of these models are instability and low robustness. Computing period of these models is long.In order to solve these problems,an on-line risk avoidance reinforcement learning model is formulated. The queue length difference is the performance index. Through VISSIM-Excel VBA-Matlab simulation platform, the effects of risk avoidance parameter on signal timing and convergence are analyzed. The proposed model and risk-neural reinforcement learning model are compared. The results show that the proposed model has quick convergence,better stability and almost the same performance.The incremental risk avoidance reinforcement learning method is suitable for signal timing optimization.That is, risk avoidance parameters should be increased in a small step.

作者毛盈方卢守峰

机构地区长沙理工大学交通运输工程学院

出处《交通科学与工程》 2014年第1期80-85,共6页 Journal of Transport Science and Engineering

基金国家自然科学基金项目(71071024) 湖南省自然科学基金项目(12JJ2025) 长沙市科技局重点项目(K1106004-11)

关键词增量风险避免强化学习信号配时仿真 incremental risk avoidance reinforcement learning signal timing simulation

分类号 U491.54 [交通运输工程—交通运输规划与管理]

引文网络
相关文献

参考文献11

1Oliveira D,Bazzan A L C, Silva B C, et al.Reinforce- ment learning based control of traffic lights in non- stationary environments: A case study in a micro- scopic simulator[A].Proceedings of the 4th Europe- an Workshop on Multi-Agent Systems[C].Lishon, Portugal: [s.n.], 2006 : 31 - 42.
2Ilva B C, Oliveira D, Bazzan A L C, et al. Adaptive traffic control with reinforcement learning[A].Pro- ceedings of the 4th Workshop on Agents in Traffic and Transportation [C]. Hakodate, Japan: [ s. n.], 2006:80-86.
3黄艳国,唐军,许伦辉.基于Agent的城市道路交通信号控制方法[J].公路交通科技,2009,26(10):126-129. 被引量：4
4Wiering M, Veenen J V, Vreeken J, et al. Intelligent traffic light control, institute of information and compu- ting sciences[R].Dutch : Utrecht University, 2004.
5戴朝晖,吴敏.基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D].长沙:中南大学,2011.
6卢守峰,韦钦平,刘喜敏.单交叉口信号配时的离线Q学习模型研究[J].控制工程,2012,19(6):987-992. 被引量：5
7Heger M. Consideration of risk and reinforcement learning[A].Machine earning:Proceedings of the E- leventh International Conference[C]. San Francisco : Morgan Kaufmann Publishers, 1994 : 105 - 111.
8Howard R A, Matheson J E. Risk-sensitive markov decision processes [J]. Management Science, 1972, 18(7) :356-369.
9Singh S. Risk-sensitive reinforcement learning[J]. Machine Learning, 2002,49 (2 - 3) : 267- 290.
10Sutton R S,Barto A G.Reinforcement learning: An introduction[M].Cambridge, MA: MIT Press, 1998.

二级参考文献22

1陈德望,蔡伯根,吴建平.综合集成TSIS、VC和Matlab构建交通控制仿真平台[J].计算机仿真,2004,21(8):191-193. 被引量：6
2阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
3黄艳国,许伦辉,刘文亮,许礼武.基于GA的多相位交通信号模糊控制器优化方法[J].南昌大学学报（工科版）,2006,28(1):38-41. 被引量：3
4承向军,常歆识,杨肇夏.基于Q-学习的交通信号控制方法[J].系统工程理论与实践,2006,26(8):136-140. 被引量：14
5赵晓华,李振龙,陈阳舟,李云驰.基于混杂系统Q学习最优控制的信号灯控制方法[J].高技术通讯,2007,17(5):498-502. 被引量：5
6陈阳舟,张辉,杨玉珍,胡全连.基于Q学习的Agent在单路口交通控制中的应用[J].公路交通科技,2007,24(5):117-120. 被引量：9
7赵晓华,石建军,李振龙,赵国勇.基于Q-learning和BP神经元网络的交叉口信号灯控制[J].公路交通科技,2007,24(7):99-102. 被引量：8
8JEFFREY L, VICTOR J.A Cooperative Mtflti-agent Transportation Management and Route Guidance System [J] .Transportation Research Part C, 2002, 10:433 - 454.
9DANKO A R. Using Intelligent Agents for Pro-active Real-time Urban Intersection Control [ J ] . European Journal of Operational Research, 2001, 131: 293- 301.
10WATKINS C, DAYAN P. Q- learning [ J ] . Machine Learning, 1992 (8) : 279- 292.

共引文献21

1别一鸣,王殿海,马东方,朱自博.基于车队离散模型的分布式多智能体信号协调控制算法(英文)[J].Journal of Southeast University(English Edition),2011,27(3):311-315.
2张敏捷,徐建闽,蔡延光.基于改进宏观交通模型的交通协调控制[J].华南理工大学学报（自然科学版）,2013,41(4):83-89. 被引量：1
3卢守峰,张术,刘喜敏.单交叉口多相位在线Q学习交通控制模型[J].交通科学与工程,2014,30(1):72-79. 被引量：3
4姚志洪,蒋阳升.集成Vissim和Python的车联网仿真平台研究[J].计算机仿真,2018,35(12):143-146. 被引量：6
5卢守峰,张术,刘喜敏.平均排队长度差最小的单交叉口在线Q学习模型[J].公路交通科技,2014,31(11):116-122. 被引量：6
6卢维科,刘澜,冯伟.基于相邻相位合作博弈的单信号交叉口实时滚动优化建模和仿真[J].公路交通科技,2015,32(11):120-125. 被引量：4
7王福建,龚成宇,马东方,郭伟伟,王殿海.采用交通出行量数据的多点联动瓶颈控制方法[J].浙江大学学报（工学版）,2017,51(2):273-278. 被引量：4
8曹文斌,刘兵,徐鹏.基于vissim二次开发的城市主干道支路控制方法的研究[J].科技创新与应用,2017,7(12):75-77. 被引量：1
9杨扬,朱文玉,赵法瑞.基于组态王、EXCEL和MATLAB的液位控制仿真平台研究[J].电子设计工程,2018,26(2):118-121. 被引量：3
10买买提江.吐尔逊,买买提明.艾尼.拥挤快速路交织区的SUMO仿真及换车道模型优化[J].新疆大学学报（自然科学版）,2018,35(1):96-101. 被引量：3

1黄江波,王军,沈沉.电子制动系统中基于滑移率的控制研究[J].辽宁省交通高等专科学校学报,2006,8(1):43-45.
2马书红,周伟.城乡一体化与县域公路交通发展的思考[J].交通标准化,2004,32(9):31-35. 被引量：15
3原浩祺.Excel VBA在桥梁静载试验布载中的应用[J].山西建筑,2011,37(5):190-191. 被引量：1
4常鹏飞.Excel VBA在公路涵洞设计数据处理中的应用[J].山西建筑,2011,37(17):255-256. 被引量：2
5宋正东,苏先科.EXCEL VBA编程在公路工程计量支付中的应用[J].交通科技,2013,23(1):130-133. 被引量：1
6曾素勤,郭文强.不同交通状态下的交叉口信号控制策略[J].交通标准化,2011,39(12):149-152. 被引量：2
7黎锋.基于Excel VBA的客专接触网平面配套设计[J].科技传播,2012,4(9):190-191.
8黄梓瑜,张炎华.神经网络在船舶操纵中的应用研究[J].船舶工程,1999(1):47-48. 被引量：3
9卢守峰,张术,刘喜敏.单交叉口多相位在线Q学习交通控制模型[J].交通科学与工程,2014,30(1):72-79. 被引量：3
10景玉军,徐雪松.免疫算法在交叉口配时优化中的应用[J].商情（科学教育家）,2008,0(4):378-379.

交通科学与工程

2014年第1期

浏览历史

内容加载中请稍等...

基于风险避免强化学习的单交叉口配时优化

参考文献11

二级参考文献22

共引文献21

相关作者

相关机构

相关主题

浏览历史