基于深度确定性策略梯度的队列纵向协同控制策略被引量：5

Deep deterministic policy gradient based cooperative platoon longitudinal control strategy

导出

摘要为了解决车辆队列控制中的车辆连续精确控制问题和行驶过程中车辆队列纵向稳定性问题,提出了一种在中等速度环境下基于深度强化学习(deep reinforcement learning,DRL)的车辆队列纵向控制策略。该策略充分考虑了影响队列安全的车辆距离、车辆速度和车辆加速度3个关键影响因素,并将车辆动力学和舒适性作为策略学习过程中的约束条件。首先,建立基于强化学习的车辆队列纵向控制模型。其次,提出一个深度强化学习过程来进行队列纵向控制策略的迭代,最终目标为获得车辆的最优控制策略;并且设计了一个多目标的奖励函数,该函数综合了距离误差、速度误差和加速度约束对应的奖励。最后,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)求解队列纵向控制问题,该算法将动作-评价(actor-critic,AC)网络的优点与深度Q网络(deep Q-network,DQN)的优点相结合,有效解决连续状态空间和连续动作空间上的车辆队列控制问题;并设计和训练了基于DDPG的队列控制模型用于队列纵向控制,验证该控制策略的有效性。结果表明:提出的基于强化学习的队列控制方法具有和分布式模型预测控制算法相当的控制精度,并能在"前车-领航车跟随"通信拓扑下实现队列的串稳定性。 To solve the problem of continuous and accurate platoon control and string stability during platoon traveling,a deep reinforcement learning(DRL)-based platoon longitudinal control strategy at moderate speed was proposed.Three key factors including spacing,vehicle speed and acceleration,were fully considered and satisfied by the proposed strategy,which considers vehicle dynamics and comfort in the learning process.First,the platoon control process was modeled and the algorithm of the reinforcement learning was illustrated.Second,a DRL-based method that determines the optimal strategy for platoon longitudinal control was proposed.Particularly,a multi-objective reward function was designed,which can integrate the rewards corresponding to the distance error,speed error,and acceleration constraints.Third,the deep deterministic policy gradient(DDPG)was adopted to solve the platoon longitudinal control problem.The algorithm combined actor-critic(AC)and deep Q-network(DQN)to effectively solve the problem of platoon control in continuous state space and continuous action space.The results show that the proposed platoon control method based on reinforcement learning has the same control accuracy as the distributed model predictive control algorithm,and can achieve the string stability of a platoon under the leader-follower communication topology.

作者闵海根杨一鸣王武祺方煜坤宋晓鹏 MIN Hai-gen;YANG Yi-ming;WANG Wu-qi;FANG Yu-kun;SONG Xiao-peng(School of Information&Engineering,Chang'an University,Xi'an 710064,Shaanxi,China;Joint Laboratory for Internet of Vehicles,Ministry of EducationChina MobileCommunications Corporation,Chang'an University,Xi'an 710064,Shaanxi,China;Zhejiang Transportation Planning and Design Institute Co.,Ltd,Hangzhou 310017,Zhejiang,China)

机构地区长安大学信息工程学院长安大学“车联网”教育部中国移动联合实验室浙江省交通规划设计研究院有限公司

出处《长安大学学报（自然科学版）》 CAS CSCD 北大核心 2021年第4期90-100,共11页 Journal of Chang’an University(Natural Science Edition)

基金国家自然科学基金项目(61903046) 陕西省重点研发计划项目(2021GY-290) 浙江省重点研发计划项目(2020C01057) “车联网”教育部-中国移动联合实验室基金项目(教技司(2016)477号)。

关键词交通工程深度强化学习队列纵向控制深度确定性策略梯度队列稳定性 traffic engineering deep reinforcement learning platoon longitudinal control deep deterministic policy gradient platoon string stability

分类号 U491.15 [交通运输工程—交通运输规划与管理]

引文网络
相关文献

参考文献1

1罗颖,秦文虎,翟金凤.基于改进DDPG算法的车辆低速跟驰行为决策研究[J].测控技术,2019,38(9):19-23. 被引量：3

二级参考文献8

1陈雪梅,田赓,苗一松.面向智能驾驶行为的机器学习[J].道路交通与安全,2014,14(6):60-64. 被引量：4
2苏世雄,齐金平.基于强化学习的自适应在线规划的应用研究[J].测控技术,2016,35(7):124-127. 被引量：3
3秦严严,王昊,王炜,NI Dai-heng.自适应巡航控制车辆跟驰模型综述[J].交通运输工程学报,2017,17(3):121-130. 被引量：61
4刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
5贾瑞清,孙稚媛,张尚生.关于无人驾驶汽车存在问题的拟解决方案[J].测控技术,2018,37(8):1-4. 被引量：14
6李国豪.基于3D CNN-DDPG端到端无人驾驶控制[J].电子设计工程,2018,26(22):156-159. 被引量：4
7姜竹青,刘建江,韩峰.交通拥堵、空间外溢与人口城市化[J].财经论丛,2019(5):104-112. 被引量：10
8刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：129

共引文献2

1任玥,邹博文,尹旭,刘学高,梁新成.考虑驾驶员特性的个性化跟驰控制策略研究[J].西南大学学报（自然科学版）,2022,44(3):12-19.
2张海龙,赵永娟,张鹏飞,董瀚萱.基于多智能体强化学习的重载运输车队队列控制[J].兵器装备工程学报,2024,45(8):45-50.

同被引文献69

1陈文韬,孙志伟,周青,林昌威.队列车辆碰撞严重性及车队排布策略[J].中国公路学报,2022,35(4):298-312. 被引量：5
2边有钢,杨依琳,胡满江,杜长坤,徐彪,秦兆博.基于双向多车跟随式拓扑的混合车辆队列稳定性研究[J].中国公路学报,2022,35(3):66-77. 被引量：5
3秦继朔,贾科,孔繁哲,杨彬,武文强,毕天姝.基于寻优算法的永磁风机并网逆变器故障穿越控制参数分步辨识[J].中国电机工程学报,2021,41(S01):59-69. 被引量：21
4王伟达,彭浩楠,黄国强,项昌乐,马越,韩立金.四轮独立驱动电动汽车行驶稳定性分析与联合滑模变结构主动控制[J].机械工程学报,2021,57(4):103-112. 被引量：14
5余联想,郑明魁,欧文君,王占宝.多传感器融合的移动机器人室外激光SLAM算法优化与系统实现[J].电子测量与仪器学报,2023,37(2):48-55. 被引量：9
6王庆林,李辉,谢礼志,谢剑斌,彭石林.基于激光雷达点云的车辆目标检测算法改进研究[J].电子测量技术,2023,46(1):120-126. 被引量：6
7李青云,曾钢,伍翼.校正坡度地面点云分割研究[J].国外电子测量技术,2022,41(2):117-121. 被引量：4
8赵又群,刘英杰,李小龙.基于滚动时域混合整数线性规划的汽车紧急避让问题求解方法[J].应用基础与工程科学学报,2014,22(5):1010-1017. 被引量：2
9路婷,贝晓旭,刘桂云.基于交叉口重要度深度搜索的区域信号协调控制方法[J].交通运输系统工程与信息,2018,18(2):80-86. 被引量：7
10谢小军,于浩,陶磊,张信明.基于动态数据压缩的能量采集无线传感网络数据收集优化[J].计算机应用,2018,38(8):2353-2358. 被引量：8

引证文献5

1温国强,关志伟,赵俊英,杨芳,王青云,胡顺堂,窦汝振.智能网联车辆队列协同控制系统构建[J].国外电子测量技术,2023,42(7):68-73. 被引量：1
2陈克龙,仲建生,沈亚军.基于无线传感器网络的医学装备运行数据采集优化方法研究[J].医疗卫生装备,2023,44(9):83-87. 被引量：2
3孙文峰,何晓伟.基于强化迭代学习的分布式无人机编队控制研究[J].计算机测量与控制,2024,32(7):119-125.
4王福建,范诚睿,周斌,封春房,马东方.基于多维时空层递的交通信号分布式强化学习方法[J].中国公路学报,2024,37(7):250-263.
5王庞伟,孙远哲,王欣荻,张龙,张名芳,刘江.考虑换道切入安全的混行车辆队列控制方法[J].应用基础与工程科学学报,2024,32(3):643-665.

二级引证文献3

1刘晓龙,张蕾,王清,李然然,安馨.基于T-S MPC的车辆自适应巡航控制策略研究[J].国外电子测量技术,2024,43(7):57-64.
2兰蓝,王鑫,张悦莲,吴思远,李瑞.智能床在医院的应用及其效果评价研究[J].医疗卫生装备,2024,45(7):77-80.
3房珂宇,张鑫,王钧钧,秦晓丽,陈平.基于OCR模型的医疗救治装备数据采集平台设计与实现[J].医疗卫生装备,2024,45(9):14-20.

1刘爽爽,于欣策,邹广奕.智能汽车执行控制技术研究[J].时代汽车,2021(16):18-19. 被引量：2
2李淑庆,李啟丰,王昊,秦严严.协作式巡航控制下混合车队队列稳定性[J].交通运输系统工程与信息,2021,21(4):82-89. 被引量：5
3刘光明.探寻破解导函数正负困境的策略[J].教学考试,2021(20):51-55.
4刘光瑞.破解导数问题中的“卡壳”现象[J].高中数理化,2021(14):13-14.
5陈超博.稳定河宽在白家河秦州段堤防治理中的分析与应用[J].科技创新与应用,2021,11(22):178-180.
6王蓓蓓,仇知,丛小涵,郑亚先,冯树海.基于两阶段随机优化建模的新能源电网灵活性资源边际成本构成的机理分析[J].中国电机工程学报,2021,41(4):1348-1359. 被引量：20
7张影,龚亮亮,胡阳,丁仪,姬昊.基于深度强化学习的智能电网RAN切片策略[J].计算机系统应用,2021,30(8):293-299. 被引量：4
8代珊珊,刘全.基于动作约束深度强化学习的安全自动驾驶方法[J].计算机科学,2021,48(9):235-243. 被引量：15
9陈斌,刘卫国.基于SAC模型的改进遗传算法求解TSP问题[J].计算机科学与探索,2021,15(9):1680-1693. 被引量：14
10李春萍,邱轶辉,夏厚胤,谭璐娜,许环宇,张瀚文,高景慧.紫花苜蓿多父本F1代低蒸腾及产量性状的隶属函数分析[J].草地学报,2021,29(7):1416-1422. 被引量：7

长安大学学报（自然科学版）

2021年第4期

浏览历史

内容加载中请稍等...

基于深度确定性策略梯度的队列纵向协同控制策略被引量：5

参考文献1

二级参考文献8

共引文献2

同被引文献69

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于深度确定性策略梯度的队列纵向协同控制策略 被引量：5

参考文献1

二级参考文献8

共引文献2

同被引文献69

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于深度确定性策略梯度的队列纵向协同控制策略被引量：5