基于强化学习的多目标车辆跟随决策算法被引量：8

Multi-objective vehicle following decision algorithm based on reinforcement learning

导出

摘要为满足自适应巡航系统跟车模式下的舒适性需求并兼顾车辆安全性和行车效率,解决已有算法泛化性和舒适性差的问题,基于深度确定性策略梯度算法(deep deterministic policy gradient, DDPG),提出一种新的多目标车辆跟随决策算法.根据跟随车辆与领航车辆的相互纵向运动学特性,建立车辆跟随过程的马尔可夫决策过程(Markov decision process, MDP)模型.结合最小安全距离模型,设计一个高效、舒适、安全的车辆跟随决策算法.为提高模型收敛速度,改进了DDPG算法经验样本的存储方式和抽取策略,根据经验样本重要性的不同,对样本进行分类存储和抽取.针对跟车过程的多目标结构,对奖赏函数进行模块化设计.最后,在仿真环境下进行测试,当测试环境和训练环境不同时,依然能顺利完成跟随任务,且性能优于已有跟随算法. To meet the comfort requirements of the adaptive cruise system following mode and take into account vehicle safety and driving efficiency, and solve the problem of poor generalization and comfort of existing algorithms, a new multi-target vehicle following decision is proposed based on the deep deterministic policy gradient(DDPG). According to the mutual longitudinal kinematics of the following vehicle and the pilot vehicle, a Markov decision process(MDP)model of the vehicle following process is established. Combined with the minimum safety distance model, an efficient,comfortable and safe vehicle following decision algorithm is designed. In order to improve the model convergence speed, the storage method and extraction strategy of the DDPG algorithm’s experience samples are improved, and the samples are classified and stored according to the importance of the experience samples. Aiming at the multi-objective structure of the following process, the reward function is modularized. Finally, the test is performed in the simulation environment. When the test environment and the training environment are different, the following tasks can be successfully completed, and the performance is better than the existing following algorithms.

作者邓小豪侯进谭光鸿万斌杨曹婷婷 DEND Xiao-hao;HOU Jin;TAN Guang-hong;WAN Bin-yang;CAO Ting-ting(School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756,China)

机构地区西南交通大学信息科学与技术学院

出处《控制与决策》 EI CSCD 北大核心 2021年第10期2497-2503,共7页 Control and Decision

基金浙江大学CAD&CG国家重点实验室开放课题(A1923) 成都市科技项目(2015-HM01-00050-SF)。

关键词自主决策车辆跟随半自动驾驶强化学习深度确定性策略梯度马尔可夫决策过程 autonomous decision vehicle following semi-autonomous driving reinforcement learning deep deterministic policy gradient Markov decision process

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1刘秉政,高松,曹凯,马晓钟,徐艺,王鹏伟.车辆跟随控制策略的状态可达集建模及验证方法[J].控制与决策,2021,36(7):1679-1685. 被引量：1
2吴光强,郭晓晓,张亮修.汽车自适应巡航跟车多目标鲁棒控制算法设计[J].哈尔滨工业大学学报,2016,48(1):80-86. 被引量：18
3李润梅,张立威,王剑.基于时变间距和相对角度的无人车跟随控制方法研究[J].自动化学报,2018,44(11):2031-2040. 被引量：8
4高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：266
5徐国艳,宗孝鹏,余贵珍,苏鸿杰.基于DDPG的无人车智能避障方法研究[J].汽车工程,2019,41(2):206-212. 被引量：14

二级参考文献36

1侯德藻,刘刚,高锋,李克强,连小珉.新型汽车主动避撞安全距离模型[J].汽车工程,2005,27(2):186-190. 被引量：50
2闵颖颖,刘允刚.Barbalat引理及其在系统稳定性分析中的应用[J].山东大学学报（工学版）,2007,37(1):51-55. 被引量：104
3任殿波,张继业,李维军.基于滑模控制的时滞自动车辆跟随系统数学模型[J].公路交通科技,2008,25(1):142-145. 被引量：5
4RAZA H, LOANNOU P. Vehicle following control design for automated highway systems [ J ]. IEEE Trans on Control Systems, 1996, 16(6): 43-60.
5VAHIDI A, ESKANDAIMAN A. Research advances in intelligent collision avoidance and adaptive cruise control [J ]. Intelligent IEEE Trans on Transportation Systems, 2003, 4(3) : 143-153.
6RAJAMANI R. Vehicle dynamics and control[ M]. Second Edition. Heidelberg: Springer Science & Business Media, 2011,.
7ZHANG J, IOANNOU P A. Longitudinal control of heavy trucks in mixed traffic: environmental and fuel economy considerations [ J ]. IEEE Transactions on Intelligent Transportation Systems, 2006, 7( 1): 92-104.
8NARANJO J E, GONZALEZ C, REVIEJO J, et al. Adaptive fuzzy control for inter-vehicle gap keeping [ J ]. IEEE Transactions on Intelligent Trans Systems, 2003, 4(3) : 132-142.
9JENNESS J W, LERNER N D, MAZOR S, et al. Use of advanced in-vehicle technology by young and older early adopters[ R]//Survey Results on Adaptive Cruise Control Systems. Washington, DC: National Highway Traffic Safety Administration, 2008.
10MARTINEZ J J, de CANUDAS W C. A safe longitudinal control for adaptive cruise control and stop-and-go scenarios[J]. IEEE Transactions on Control Systems Technology, 2007, 15(2): 246-258.

共引文献302

1赵健,宋东鉴,朱冰,刘斌,陈志成,张培兴.基于自学习和监督学习混合驱动的智能汽车跟驰控制策略[J].中国公路学报,2022,35(3):55-65. 被引量：4
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
7赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

同被引文献69

1唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：20
2吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
3郭俊,周建中,周超,王光谦,张勇传.概念性流域水文模型参数多目标优化率定[J].水科学进展,2012,23(4):447-456. 被引量：24
4李谦,张静,宫辉力.基于SUFI-2算法和SWAT模型的妫水河流域水文模拟及参数不确定性分析[J].水文,2015,35(3):43-48. 被引量：20
5王建强,吴剑,李洋.基于人-车-路协同的行车风险场概念、原理及建模[J].中国公路学报,2016,29(1):105-114. 被引量：77
6陈启香.基于列车间直接通信的列车编队追踪间隔控制策略研究[J].电子设计工程,2016,24(9):97-100. 被引量：4
7毕伟平,张欢,瞿振林,丁永前,余洪锋,王波.基于双目视觉的主从式果园作业车辆自主跟随系统设计[J].湖南农业大学学报（自然科学版）,2016,42(3):344-348. 被引量：5
8宁滨,刘朝英.中国轨道交通列车运行控制技术及应用[J].铁道学报,2017,39(2):1-9. 被引量：54
9李克强,戴一凡,李升波,边明远.智能网联汽车(ICV)技术的发展现状及趋势[J].汽车安全与节能学报,2017,8(1):1-14. 被引量：417
10张质明,王晓燕,潘润泽.一种改进的不确定性水质模型参数率定方法[J].中国环境科学,2017,37(3):956-962. 被引量：11

引证文献8

1付文秀,李亚,吕继东,李丹勇,李洋.基于强化学习的新型列控系统区间行车间隔控制方法[J].北京交通大学学报,2021,45(5):63-73. 被引量：4
2孙辉辉,胡春鹤,张军国.多智能体专家型策略梯度的目标跟踪与清障[J].控制理论与应用,2022,39(10):1854-1864.
3孙辉辉,胡春鹤,张军国.基于主动风险防御机制的多机器人强化学习协同对抗策略[J].控制与决策,2023,38(5):1420-1429.
4景永年,耿双双,向瑶,文家燕.改进型DDPG算法的多智能体编队控制与仿真[J].广西科技大学学报,2023,34(3):62-71.
5李永福,周发涛,黄龙旺,于树友,施树明.基于深度强化学习的网联车辆队列纵向控制[J].控制与决策,2024,39(6):1879-1887. 被引量：2
6白冰,董飞,彭文启,刘晓波.基于深度强化学习的水质模型参数率定[J].环境科学学报,2024,44(7):271-280.
7顾俊,张乃斯,李胜飞,谭森起,宋卓,郑修磊,罗天.结构化道路下强化学习自动驾驶技术研究综述[J].无人系统技术,2024,7(3):1-13.
8张名芳,马健,赵娜乐,王力,刘颖.无信号交叉口处基于深度强化学习的智能网联车辆运动规划[J].浙江大学学报（工学版）,2024,58(9):1923-1934.

二级引证文献6

1姚慧欣.考虑城市轨道交通通行限制的列车运行速度自动控制方法[J].自动化与仪器仪表,2023(1):106-110. 被引量：2
2朱爱红,何明明,袁小梅,舒豪.新型列控系统列车追踪间隔的优化及效能评估[J].重庆大学学报,2023,46(7):86-96. 被引量：2
3朱爱红,田晓晴,何明明.列车大小交路通信协同运行自适应控制方法[J].铁道科学与工程学报,2024,21(3):969-979.
4丁颖,吕家慧,刘彩霞,高金金,吕继东.基于分布式模型预测控制的城轨列车协同控制方法研究[J].铁道通信信号,2024,60(9):11-19.
5李永福,曾柯月,黄龙旺,黄鑫.通信中断条件下基于组合间距策略的车辆队列控制[J].控制与决策,2024,39(8):2569-2578.
6Xu Zhu,Maode Yan,Panpan Yang,Yongtao Liu.Computation of the exact time delay margin for vehicle platoon under generic communication topologies[J].Journal of Traffic and Transportation Engineering(English Edition),2024,11(4):761-775.

1葛丰.实现“双碳”目标要靠两条腿走路[J].中国经济周刊,2021(21):3-3.
2蔡新雷,崔艳林,董锴,孟子杰,潘远,喻振帆,王吉兴,孟乡占,余洋.基于改进K-means和MADDPG算法的风储联合系统日前优化调度方法[J].储能科学与技术,2021,10(6):2200-2208. 被引量：6
3ZENG Xin,ZHU Yanwei,YANG Leping,ZHANG Chengming.A guidance method for coplanar orbital interception based on reinforcement learning[J].Journal of Systems Engineering and Electronics,2021,32(4):927-938. 被引量：4
4王宇钢,修世超.应用响应面法的电机支架多目标优化设计[J].机械设计与制造,2021(10):42-44. 被引量：9
5张宁,葛斌.改进的DDPG算法在机器人路径规划中的应用[J].佳木斯大学学报（自然科学版）,2021,39(5):119-122. 被引量：2
6尚立,蔡硕,崔俊彬,纪春华,崔康佳,李保罡.基于软件定义网络的电网边缘计算资源分配[J].电力系统保护与控制,2021,49(20):136-143. 被引量：23
7张杨.情景化灭火救援实战训练研究[J].中国高新科技,2021(17):133-134.
8付晓东,彭俊,岳昆,刘骊,刘利军,冯勇.面向不完整序数偏好的在线服务评价[J].计算机集成制造系统,2021,27(10):2774-2785. 被引量：1
9肇毓.关于高速公路隧道监控系统设计研究[J].交通科技与管理,2021(34):3-4.
10高晨晨.体能训练中运动损伤的成因及预防对策[J].当代体育,2021(38):82-83.

控制与决策

2021年第10期

浏览历史

内容加载中请稍等...

基于强化学习的多目标车辆跟随决策算法被引量：8

参考文献5

二级参考文献36

共引文献302

同被引文献69

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多目标车辆跟随决策算法 被引量：8

参考文献5

二级参考文献36

共引文献302

同被引文献69

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多目标车辆跟随决策算法被引量：8