基于样本优化的PPO算法在单路口信号控制的应用

Application of Sample-optimized PPO Algorithm in Single Intersection Signal Control

下载PDF

导出

摘要优化交通信号的控制策略可以提高道路车辆通行效率,缓解交通拥堵.针对基于值函数的深度强化学习算法难以高效优化单路口信号控制策略的问题,构建了一种基于样本优化的近端策略优化(MPPO)算法的单路口信号控制方法,通过对传统PPO算法中代理目标函数进行最大化提取,有效提高了模型选择样本的质量,采用多维交通状态向量作为模型观测值的输入方法,以及时跟踪并利用道路交通状态的动态变化过程.为了验证MPPO算法模型的准确性和有效性,在城市交通微观模拟软件(SUMO)上与值函数强化学习控制方法进行对比.仿真实验表明,相比于值函数强化学习控制方法,该方法更贴近真实的交通场景,显著加快了车辆累计等待时间的收敛速度,车辆的平均队列长度和平均等待时间明显缩短,有效提高了单路口车辆的通行效率. Optimizing the control strategy of traffic signals can improve the efficiency of vehicular traffic on roads and alleviate congestion.To overcome the challenge of efficiently optimizing signal control strategies at single intersections using value function-based deep reinforcement learning algorithms,this study develops a method based on sample optimization called modified proximal policy optimization(MPPO).This approach enhances the quality of model sample selection by maximizing the extraction from the agent target function in the traditional PPO algorithm.It employs a multidimensional traffic state vector as input for the model's observations,enabling it to promptly track and utilize the dynamic changes in road traffic conditions.The accuracy and effectiveness of the MPPO algorithm model are verified by comparing it with value function reinforcement learning control methods using the urban traffic micro simulation software(SUMO).Simulation experiments show that this approach closely resembles real traffic scenarios compared to value function reinforcement learning control methods.It significantly accelerates the convergence speed of cumulative vehicle waiting time,noticeably reduces the average vehicle queue length and waiting time,and effectively improves the traffic throughput at the intersection.

作者张国有张新武 ZHANG Guo-You;ZHANG Xin-Wu(College of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)

机构地区太原科技大学计算机科学与技术学院

出处《计算机系统应用》 2024年第6期161-168,共8页 Computer Systems & Applications

基金国家自然科学基金(62072325) 山西省自然科学基金(202203021221145) 太原科技大学科技创新基金(20212039) 山西省基础研究计划(202103021224272)。

关键词交通信号控制深度强化学习近端策略优化算法代理目标函数状态特征向量 traffic signal control deep reinforcement learning proximal policy optimization(PPO)algorithm surrogate objective function state feature vector

分类号 U491.54 [交通运输工程—交通运输规划与管理] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：127
2Li Li,Yisheng Lv,Fei-Yue Wang.Traffic Signal Timing via Deep Reinforcement Learning[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254. 被引量：71
3刘智敏,叶宝林,朱耀东,姚青,吴维敏.基于深度强化学习的交通信号控制方法[J].浙江大学学报（工学版）,2022,56(6):1249-1256. 被引量：14
4孙浩,陈春林,刘琼,赵佳宝.基于深度强化学习的交通信号控制方法[J].计算机科学,2020,47(2):169-174. 被引量：28

二级参考文献13

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：331
2王飞跃.平行控制:数据驱动的计算控制方法[J].自动化学报,2013,39(4):293-302. 被引量：130
3林晓辉.车路协同下基于交通密度的交叉口交通信号控制方法与仿真[J].工业工程,2014,17(4):123-128. 被引量：5
4赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：128
5刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：461
6Bao-Lin Ye,Weimin Wu,Keyu Ruan,Lingxi Li,Tehuan Chen,Huimin Gao,Yaobin Chen.A Survey of Model Predictive Control Methods for Traffic Signal Control[J].IEEE/CAA Journal of Automatica Sinica,2019,6(3):623-640. 被引量：10
7赖建辉.基于D3QN的交通信号控制策略[J].计算机科学,2019,46(S11):117-121. 被引量：8
8钟馥声,王安麟,姜涛,花彬.城市交通信号自组织控制规则的邻域重构[J].哈尔滨工业大学学报,2020,52(3):74-81. 被引量：5
9郭梦杰,任安虎.基于深度强化学习的单路口信号控制算法[J].电子测量技术,2019,42(24):49-52. 被引量：11
10刘皓,吕宜生.基于深度强化学习的单路口交通信号控制[J].交通工程,2020,20(2):54-59. 被引量：6

共引文献227

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
2吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：15
3吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：29
4马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
5闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
6刘俊红.3中药汤剂对胃溃疡治疗机理的探讨[J].河南中医,2000,20(3):28-28. 被引量：3
7夏新海.多Agent强化学习下的城市路网自适应交通信号协调配时决策研究综述[J].交通运输研究,2017,3(2):17-23. 被引量：2
8刘昕,王晓,张卫山,汪建基,王飞跃.平行数据:从大数据到数据智能[J].模式识别与人工智能,2017,30(8):673-681. 被引量：40
9莫红,郝学新.时变论域下红绿灯配时的语言动力学分析[J].自动化学报,2017,43(12):2202-2212. 被引量：5
10Gang Bao,Yuanyuan Chen,Siyu Wen,Zhicen Lai.Stability Analysis for Memristive Recurrent Neural Network and Its Application to Associative Memory[J].自动化学报,2017,43(12):2244-2252. 被引量：2

1林俊.城市双修语境下的城市滨水空间景观更新策略与实践——以广昌旴江一河两岸“双修”项目为例[J].城市建筑,2024,21(5):75-78.
2金彦亮,范宝荣,高塬.基于元强化学习的自动驾驶算法研究[J].工业控制计算机,2024,37(3):24-26.
3徐瑶.大数据背景下事业单位预算绩效管理的应用探讨[J].品牌研究,2024(15):0028-0030.
4何帆,何东发.基于光伏电站的高效设计[J].能源研究与利用,2024(3):52-56.
5秦嘉乐,王诗,张浩然,陈佳棋.基于排队论的超市结账服务机构仿真模拟[J].中国科技论文在线精品论文,2023(4):439-445. 被引量：1
6齐玉珍.财务bp在企业管理中的应用[J].中文科技期刊数据库（全文版）经济管理,2024(6):0070-0073.
7杨永聪,丘珊,刘慧婷.绿色信贷政策与重污染企业税负粘性——基于税盾效应的解释[J].西部论坛,2024,34(3):37-53.
8朱晓庆,刘鑫源,阮晓钢,张思远,李春阳,李鹏.融合元学习和PPO算法的四足机器人运动技能学习方法[J].控制理论与应用,2024,41(1):155-162.
9杨媛媛,胡蓉,钱斌,张长胜,金怀平.深度强化学习算法求解动态流水车间实时调度问题[J].控制理论与应用,2024,41(6):1047-1055.
10潘新福,欧阳涛.智能网联试验场环岛智慧管控策略应用研究[J].时代汽车,2024(12):4-6.

计算机系统应用

2024年第6期

浏览历史

内容加载中请稍等...

基于样本优化的PPO算法在单路口信号控制的应用

参考文献4

二级参考文献13

共引文献227

相关作者

相关机构

相关主题

浏览历史