基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法被引量：2

An End-to-end Decision-making Method for Autonomous Driving Based on Twin Delayed Deep Deterministic Policy Gradient with Discrete

下载PDF

导出

摘要针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高,比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。 There are issues for the decision support method for automated driving based on reinforcement learning,such as low learning efficiency and non-continuous actions. Therefore,an end-to-end decision-making method for autonomous driving is developed based on the Twin Delayed Deep Deterministic Policy Gradient with Discrete(TD3WD) algorithm,which can be used to fuse the information from different action spaces over a network. In the network of traditional Twin Delayed Deep Deterministic Policy Gradient(TD3) algorithm,an additional Q network that outputs discrete actions is added to assist exploration training. Weighted fusion of the output actions of TD3 network and additional Q network is performed. The fused actions interact with the environment,in order to fully explore the environment and enhance the efficiency of the environment exploration. When the Critic network is updated,the output of the attached network is merged into the target actions as noise to encourage the agent to explore the environment and obtain better action estimates. Instead of the original images,image feature obtained from the pre-trained network is used as the state input to reduce the computational cost in the training process. The proposed model is tested under a set of simulated autonomous driving scenarios generated by Carla simulation platform. The results show that the convergence speed of the proposed method is about 30% higher than that of traditional reinforcement learning algorithms like TD3 and Deep Deterministic Policy Gradient(DDPG)under the training scenarios. Under the testing scenarios,the proposed method shows better convergent performances and the average rate of lane-crossing and the change rate of steering angle are reduced by 74.4% and 56.4% respectively.

作者杨璐王一权刘佳琦段玉林张荣辉 YANG Lu;WANG Yiquan;LIU Jiaqi;DUAN Yulin;ZHANG Ronghui(Tianjin Key Laboratory for Advanced Mechatronic System Design and Intelligent Control,School of Mechanical Engineering,Tianjin 300384,China;National Demonstration Center for Experimental Mechanical and Electrical Engineering Education,Tianjin University of Technology,Tianjin 300384,China;Institute of Agricultural Resources and Regional Planning,Chinese Academy of Agricultural Sciences,Beijing 100081,China;Guangdong Provincial Key Laboratory of Intelligent Transport System,Sun Yat-sen University,Guangzhou 510275,China)

机构地区天津理工大学天津市先进机电系统设计与智能控制重点实验室天津理工大学机电工程国家级实验教学示范中心中国农业科学院农业资源与农业区划研究所中山大学广东省智能交通系统重点实验室

出处《交通信息与安全》 CSCD 北大核心 2022年第1期144-152,共9页 Journal of Transport Information and Safety

基金中国农业科学院国际农业科学计划项目(CAAS-ZDRW202107) 国家自然科学基金项目(52172350、51775565) 天津市研究生科研创新项目(2020YJSZXS05)资助。

关键词自动驾驶端到端决策深度强化学习动作空间 autonomous driving end-to-end decision-making deep reinforcement learning action space

分类号 U463.6 [机械工程—车辆工程] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1熊璐,康宇宸,张培志,朱辰宇,余卓平.无人驾驶车辆行为决策系统研究[J].汽车技术,2018(8):1-9. 被引量：36
2黄玲,郭亨聪,张荣辉,吴建平.人机混驾环境下基于LSTM的无人驾驶车辆换道行为模型[J].中国公路学报,2020,33(7):156-166. 被引量：36
3王鑫鹏,陈志军,吴超仲,熊盛光.考虑驾驶风格的智能车自主驾驶决策方法[J].交通信息与安全,2020,38(2):37-46. 被引量：9
4闫浩,刘小珠,石英.基于REINFORCE算法和神经网络的无人驾驶车辆变道控制[J].交通信息与安全,2021,39(1):164-172. 被引量：5
5罗鹏,黄珍,秦易晋,陈志军.基于DQN的车辆驾驶行为决策方法[J].交通信息与安全,2020,38(5):67-77. 被引量：7
6宋晓琳,盛鑫,曹昊天,李明俊,易滨林,黄智.基于模仿学习和强化学习的智能车辆换道行为决策[J].汽车工程,2021,43(1):59-67. 被引量：15

二级参考文献29

1王永明,周磊山,吕永波.基于元胞自动机交通流模型的车辆换道规则[J].中国公路学报,2008,21(1):89-93. 被引量：51
2姜岩,龚建伟,熊光明,陈慧岩.基于运动微分约束的无人车辆纵横向协同规划算法的研究[J].自动化学报,2013,39(12):2012-2020. 被引量：32
3张朋飞,何克忠,欧阳正柱,张军宇.多功能室外智能移动机器人实验平台—THMR-V[J].机器人,2002,24(2):97-101. 被引量：46
4陈慧,徐建波.智能汽车技术发展趋势[J].中国集成电路,2014,23(11):64-70. 被引量：35
5熊光明,李勇,王诗源.基于有限状态机的智能车辆交叉口行为预测与控制[J].北京理工大学学报,2015,35(1):34-38. 被引量：16
6张荷芳,豆菲菲.多传感器信息融合的无人车行驶策略[J].计算机与数字工程,2015,43(3):392-395. 被引量：2
7高岩,董宪元,田飞.高速公路交通安全现状分析及管理对策[J].中国安全生产科学技术,2015,11(10):110-115. 被引量：24
8杨刚,张东好,李克强,罗禹贡.基于车车通信的车辆并行协同自动换道控制[J].公路交通科技,2017,34(1):120-129. 被引量：20
9张文明,韩泓冰,杨珏,易筱.基于驾驶员行为的神经网络无人驾驶控制[J].华南理工大学学报（自然科学版）,2016,44(12):74-80. 被引量：11
10陈雪梅,田赓,苗一松,龚建伟.城市环境下无人驾驶车辆驾驶规则获取及决策算法[J].北京理工大学学报,2017,37(5):491-496. 被引量：10

共引文献99

1曹丹妮,吴建军,屈云超,刘浩.考虑自动车队强度的高速公路非常规瓶颈交通流控制策略研究[J].中国公路学报,2022,35(3):78-88. 被引量：4
2方培元,熊璐,冷搏,李拙人,曾德全,沈祖英,俞钟兢,刘登程.基于多约束随机模型预测控制的无人车运动规划与控制[J].同济大学学报（自然科学版）,2022,50(S01):128-134.
3杨茂保,徐利亚,葛明珠,舒长兴.车载网中一种低延时的广播路由[J].汽车技术,2018(12):13-18.
4吴锦铁,许原,仲崇霞,梁炜,黄艳.一种用于里程计量的双目立体视觉测距系统[J].计量技术,2019,0(10):21-24. 被引量：2
5班兵,杨志刚,杨航.MDP及PROLOG在自动驾驶中的应用[J].汽车实用技术,2019,0(24):37-40.
6赵祥模,王文威,王润民,徐志刚.智能汽车整车在环测试台转向随动系统[J].长安大学学报（自然科学版）,2019,39(6):116-126. 被引量：6
7李宇寂,鲁奉军,王迪,尚秉旭.基于多属性决策的无人驾驶自主变道决策技术研究[J].汽车文摘,2020,0(4):59-62.
8赵祥模,连心雨,刘占文,沈超,董鸣.基于MM-STConv的端到端自动驾驶行为决策模型[J].中国公路学报,2020,33(3):170-183. 被引量：11
9孙嘉浩,陈劲杰.基于强化学习的无人驾驶仿真研究[J].农业装备与车辆工程,2020,58(6):102-106.
10葛亚明,胡一博,雷乔治,陈浩耀.ROS无人驾驶创新实验课程研究与教学实践[J].实验技术与管理,2020,37(6):221-224. 被引量：8

同被引文献27

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：37
2谌海云,陈华胄,刘强.基于改进人工势场法的多无人机三维编队路径规划[J].系统仿真学报,2020,32(3):414-420. 被引量：33
3谭冠政,贺欢,Aaron Sloman.Global optimal path planning for mobile robot based onimproved Dijkstra algorithm and ant system algorithm[J].Journal of Central South University of Technology,2006,13(1):80-86. 被引量：20
4刘亚军,郭凤娟.基于Agent的UAV智能导航技术研究[J].现代导航,2014,5(2):79-83. 被引量：1
5田仁勇,李亚南,郭小玉,吴向阳.轨道车辆转向架横梁非常规焊缝自动打磨系统及工艺研究[J].组合机床与自动化加工技术,2020(1):148-151. 被引量：6
6李丽,郑嘉利,王哲,袁源,石静.基于异步优势动作评价的RFID室内定位算法[J].计算机科学,2020,47(2):233-238. 被引量：4
7来飞,黄超群,董红亮.智能汽车自动紧急避撞系统的安全距离模型及其对比分析[J].重庆理工大学学报（自然科学）,2020,34(9):39-46. 被引量：8
8袁泉,吕迅捷.基于PRM算法的移动小车路径规划优化研究[J].宁波工程学院学报,2020,32(4):31-35. 被引量：1
9马超.大型农业机械设备安全智慧管理平台研究与设计[J].乡村科技,2020,11(36):122-123. 被引量：3
10刘海峰,高翔,李上振,黄家怿,张璟楣,温翔宇.植物工厂自动化物流系统的设计[J].现代农业装备,2021,42(3):22-26. 被引量：3

引证文献2

1郑志良.农业机械设备的自动转向装置集成系统设计研究[J].南方农机,2022,53(20):141-143. 被引量：2
2李鹏,徐珞.一种面向城市战场的智能车自主导航方法[J].计算机与现代化,2024(1):92-98.

二级引证文献2

1阿尔孜古丽·吾买尔,张锋.自动化技术在农业机械设计制造中的运用[J].数字技术与应用,2023,41(11):23-25. 被引量：4
2舒华云.农业机械设备故障诊断及修复措施分析[J].南方农机,2024,55(6):84-86.

1贾陆.中职公共艺术课程美术教学的微课应用探析[J].中国现代教育装备,2021(22):70-72.
2朱威,谯先锋,陈艺楷,何德峰.多步积累奖励的双重时序Q网络算法[J].控制理论与应用,2022,39(2):222-230.
3胡常礼,邵剑飞.基于轨迹式的Q学习算法对探索环境预处理的研究[J].通信技术,2021,54(12):2621-2625.
4林芷伊.初中英语主题式单元口语教学实践——以Unit 8 It must belong to Carla Section A(2d)为例[J].英语教师,2021,21(23):130-133.
5肖儿良,林化溪,简献忠.基于生成对抗网络探索潜在空间的医学图像融合算法[J].信息与控制,2021,50(5):538-549. 被引量：5
6弓建红,王俊敏,杜锟,司盈盈.疫情背景下药物化学线上课程教学探索[J].中国教育技术装备,2021(2):69-73. 被引量：1
7赵佳辉.乡村景观与建筑一体化主导下的建筑空间设计与研究——以抚州市南丰县洽湾村为例[J].建筑科学,2021,37(9). 被引量：1
8周小燕.环境监测站矿井废水监测方法及质量管理对策研究[J].皮革制作与环保科技,2021,2(24):152-154. 被引量：4
9王羽尘,Denis MWABA,于斌.自动驾驶专用车道的宽度模型研究[J].现代交通与冶金材料,2022,2(1):53-60. 被引量：1
10Unit 8 It must belong to Carla.[J].时代英语（初中）,2021(6):39-42.

交通信息与安全

2022年第1期

浏览历史

内容加载中请稍等...

基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法被引量：2

参考文献6

二级参考文献29

共引文献99

同被引文献27

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法 被引量：2

参考文献6

二级参考文献29

共引文献99

同被引文献27

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法被引量：2