平衡主线和匝道交通运行的强化学习型匝道控制研究

Reinforcement Learning Ramp Metering to Balance Mainline and Ramp Traffic Operations

下载PDF

导出

摘要考虑合流区域主线和匝道的交通流运行状态,提出了一种基于深度强化学习的鲁棒自适应匝道控制模型——DRLARM模型。根据交通流运行特征,构造了平衡主线交通效率和匝道排队长度的强化学习奖励函数;为适应动态变化的交通环境,采用多交通流场景混合训练控制模型,在不同拥堵成因、不同拥堵时长、不同需求分布等测试场景下开展仿真实验,对比分析了无控制及DRLARM、ALINEA和PI-ALINEA模型控制的车辆平均行程时间A、车道占有率o、匝道排队长度W和匝道损失时间比P等评价指标。研究表明:DRLARM模型控制的平均行程时间A相比无控工况节省了22%,略好于ALINEA模型,与PI-ALINEA模型控制效果相当;DRLARM模型在不同测试场景下产生的匝道损失时间比P较稳定,匝道排队长度W绝对值相较于ALINEA模型和PI-ALINEA模型均缩短了约16%;深度强化学习方法兼顾了通行效率和路权公平性,训练所得DRLARM模型在动态交通条件下表现出良好的鲁棒性。 Considering the traffic flow conditions of both mainline and ramp in ramp merging areas,a robust adaptive ramp metering model named Deep Reinforcement Learning-Based Adaptive Ramp Metering(DRLARM) based on deep reinforcement learning was proposed.According to traffic flow operation characteristics,a reinforcement learning reward function balancing mainline traffic efficiency and ramp queue length was constructed.To adapt to the dynamically changing traffic environment,a mixed training control model with multiple traffic flow scenarios was adopted,and simulation experiments were conducted under test scenarios such as different congestion causes,different congestion duration and different demand distribution.The average travel time A,lane occupancy ratio o,ramp queue length W and ramp loss time radio P were compared and analyzed in the case of uncontrolled,DRLARM,ALIENA,and PI-ALINEA models.The research shows that the average travel time A controlled by the DRLARM model has been saved by 22% compared to the uncontrolled working condition,slightly better than the ALIENA model,and has a similar control effect as the PI-ALINEA model does.In addition,the ramp loss time ratio P generated by the DRLARM model in different testing scenarios is relatively stable and the absolute value of ramp queue length W is shortened by about 16%,compared with the that of ALIENA model and PI-ALINEA model.The deep reinforcement learning method has taken into account both traffic efficiency and right-of-way fairness,and the trained DRLARM model exhibits good robustness under dynamic traffic conditions.

作者章立辉余宏鑫熊满初胡文琴王亦兵 ZHANG Lihui;YU Hongxin;XIONG Manchu;HU Wenqin;WANG Yibing(Institute of Intelligent Transportation Systems,College of Civil Engineering and Architecture,Zhejiang University,Hangzhou 310058,Zhejiang,China;Architectural Design and Research Institute Co.,Ltd.,Zhejiang University,Hangzhou 310014,Zhejiang,China;Research Center for Balance Architecture,Zhejiang University,Hangzhou 310014,Zhejiang,China)

机构地区浙江大学建筑工程学院智能交通研究所浙江大学建筑设计研究院有限公司浙江大学平衡建筑研究中心

出处《重庆交通大学学报（自然科学版）》 CAS CSCD 北大核心 2023年第4期87-97,107,共12页 Journal of Chongqing Jiaotong University(Natural Science)

基金国家重点研发计划项目(2018YFB1600500) 浙江省重点研发计划项目(2021C01012)。

关键词交通工程自适应匝道控制深度强化学习高速公路匝道排队管理鲁棒性 traffic engineering adaptive ramp metering deep reinforcement learning freeway ramp queue management robustness

分类号 U495 [交通运输工程—交通运输规划与管理]

引文网络
相关文献

参考文献6

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
2杨思明,单征,丁煜,李刚伟.深度强化学习研究综述[J].计算机工程,2021,47(12):19-29. 被引量：51
3戴昇宏,李志斌.基于图像卷积神经网络的匝道控制深度强化学习算法研究[J].交通工程,2019,19(4):1-6. 被引量：4
4王兴举,高桂凤,宫城俊彦.高速公路单点入口匝道RLRM控制方法[J].交通运输工程学报,2012,12(3):101-107. 被引量：5
5赵明,侯忠生,晏静文.受限迭代学习入口匝道控制收敛性分析[J].交通运输系统工程与信息,2011,11(2):166-173. 被引量：5
6贺敬凯,徐建闽.基于BP神经网络的入口匝道控制器的设计[J].华南理工大学学报（自然科学版）,2002,30(7):24-27. 被引量：14

二级参考文献38

1张海军,杨晓光,张珏.高速道路入口匝道控制方法综述[J].同济大学学报（自然科学版）,2005,33(8):1051-1055. 被引量：23
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3任黎立.高速道路入口匝道控制方法综述[J].交通标准化,2006,34(5):146-149. 被引量：14
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5Papageorgiou M, Kotsialos A. Freeway ramp metering: an overview [ J ]. IEEE Transactions on Intelligent Transportation Systems, 2002, 3 (4) : 271 - 281.
6Hou Z S, Xu J X. Freeway traffic density control using iterative learning control approach [ C ]. The IEEE 6th International Conference on Intelligent Transportation Systems, Shanghai, China, 2003, 2:1081 -1086.
7Hou Z S, Xu J X, Yan J W. An iterative learning approach for density control of freeway traffic flow via ramp metering [ J ]. Transportation Research Part C, 2008, 16(1): 71 -97.
8Hou Z S, Xu J X, Zhong H W. Freeway traffic control using iterative learning control-based ramp metering and speed signaling [ J ]. IEEE Transactions on Vehicular Technology, 2007, 56 (2) : 466 - 477.
9Parageorgiou M, Blosseville J M, Hadj-Salem H. Mac- roscopic modeling of traffic flow on the Boulevard Pe- ripherique in Paris [ J ]. Transportation Research Part B, 1989, 23(1): 29-47.
10Sun M X, Wang D W. Initial shift issues on discrete- time iterative learning control with system relative degree [ J]. IEEE Transactions on Automatic Control, 2003, 48(1): 144-148.

共引文献536

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.

1郭辉,郭静纯.基于混合共享机制的多任务深度学习方法[J].计算机工程与设计,2023,44(2):556-562. 被引量：2
2蒋丽媛,吴亚东,张巍瀚,王书航.基于BiLSTM-EPEA模型的实体关系分类[J].计算机时代,2023(5):46-50. 被引量：1
3王志恒.浅谈美声唱法男高音的真假声训练[J].喜剧世界（中旬刊）,2022(12):85-87.
4杨益灵,杨鉴,王发亮.基于全局风格嵌入的多说话人印尼语语音合成[J].计算机科学与应用,2023,13(1):126-135.
5张庆东.基于层次分析法的钢铁物流园车辆动态排队方法研究[J].中国物流与采购,2023(8):57-58. 被引量：1
6管邦琨,孙玉忠.高新技术企业技术创新效率研究[J].合作经济与科技,2023(10):120-122.
7张鹏,高双喜,孙超,李文权.基于双站台的BRT与社会车辆协同绿波优化模型[J].汽车工程学报,2023,13(2):227-235. 被引量：1
8安旭,汪作为.地下停车系统设计与仿真研究——以南沙恒大国际旅游城为例[J].物流科技,2023,46(9):73-74.
9陈昌虎.不同训练方法对短跑成绩的影响[J].新体育（下半月）,2023(2):57-60. 被引量：1
10陈喜群,朱奕璋,吕朝锋.基于混合近端策略优化的交叉口信号相位与配时优化方法[J].交通运输系统工程与信息,2023,23(1):106-113. 被引量：7

重庆交通大学学报（自然科学版）

2023年第4期

浏览历史

内容加载中请稍等...

平衡主线和匝道交通运行的强化学习型匝道控制研究

参考文献6

二级参考文献38

共引文献536

相关作者

相关机构

相关主题

浏览历史