基于改进PPO算法的自动驾驶技术研究被引量：1

Research on autonomous driving technology based on improved PPO algorithm

下载PDF

导出

摘要针对强化学习在解决端到端自动驾驶行为决策问题时面临采样效率低、环境适应性差、决策效果不佳的问题,提出循环近端策略优化算法(RPPO),采用LSTM与移动翻转瓶颈卷积模块构建策略网络与价值网络,有效整合前后帧的关联信息,实现智能体对多变情况的预测,提高智能体对环境的快速认知能力,并在价值网络添加L2正则化层,进一步提高算法的泛化能力,最后手动设置智能体在2个连续帧中保持动作不变,引入先验知识约束搜索空间,加快算法收敛。通过CARLA开源模拟环境测试,该改进方法与传统方法相比,奖励曲线明显占优,且直行、转弯、指定路线行驶3类任务的成功率分别提高了10%、16%、30%,证明提出的方法更有效。 To address the problems of low sampling efficiency,poor environmental adaptation,and poor decision making that reinforcement learning faces in solving end-to-end autonomous driving behavioral decision problems,a recurrent proximal policy optimization(RPPO)algorithm is proposed,which introduces a mobile inverted bottleneck convolution module and LSTM to construct a policy network and a value network,which effectively integrate the correlation information of front and back frames to achieve the prediction of multivariate situations by the intelligent body,improve the rapid cognitive ability of the intelligent body to the environment,and add L2regularization layer to the value network to further improve the generalization ability of the algorithm,and finally manually set the intelligent body to keep the action constant in two consecutive frames,introduce a priori knowledge to constrain the search space and accelerate the convergence of the algorithm.Through CARLA open source simulation environment testing,the improved method significantly dominated the reward curve compared with the traditional method,and the success rates of three types of tasks,namely,straight ahead,turning,and designated route driving,increased by 10%,16%,and 30%,respectively,proving that the proposed method is more effective.

作者姚悦吉明佳杨霄 Yao Yue;Ji Mingjia;Yang Xiao(North Automatic Control Technology Institute,Taiyuan 030000,China)

机构地区北方自动控制技术研究所

出处《电子测量技术》北大核心 2023年第8期162-168,共7页 Electronic Measurement Technology

基金军委科技委预先研究项目(2016330ZD01200101)资助。

关键词自动驾驶强化学习移动翻转瓶颈卷积 LSTM autonomous driving reinforcement learning mobile inverted bottleneck convolution LSTM

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献4

1高振海,闫相同,高菲.基于逆向强化学习的纵向自动驾驶决策方法[J].汽车工程,2022,44(7):969-975. 被引量：7
2《NI趋势展望报告2019》探索了物联网、5 G商业化部署以及大众自动驾驶领域等大趋势[J].电子测量技术,2018,41(22):81-81. 被引量：1
3王丙琛,司怀伟,谭国真.基于深度强化学习的自动驾驶车控制算法研究[J].郑州大学学报（工学版）,2020,41(4):41-45. 被引量：19
4冀杰,黄岩军,李云伍,吴飞.基于有限状态机的车辆自动驾驶行为决策分析[J].汽车技术,2018(12):1-7. 被引量：13

二级参考文献11

1冯关明,胡大宏,吴壮文.基于FSM理论的模糊自适应控制汽车巡航系统仿真与设计[J].机械科学与技术,2012,31(3):446-451. 被引量：4
2刘赫.动物行为训练的理论基础[J].中国动物保健,2014,16(2):23-25. 被引量：11
3翁岳暄,多尼米克.希伦布兰德.汽车智能化的道路:智能汽车、自动驾驶汽车安全监管研究[J].科技与法律,2014,0(4):632-655. 被引量：50
4熊光明,李勇,王诗源.基于有限状态机的智能车辆交叉口行为预测与控制[J].北京理工大学学报,2015,35(1):34-38. 被引量：16
5熊璐,黄少帅,王龙祥,杨光兴.基于有限状态机的差动转向无人车整车控制策略设计[J].制造业自动化,2015,37(19):146-152. 被引量：4
6冀杰,姬鹏,彭和,李云伍.面向车辆主动避撞的三维虚拟危险势能场设计[J].汽车工程,2016,38(9):1065-1071. 被引量：8
7夏伟,李慧云.基于深度强化学习的自动驾驶策略学习方法[J].集成技术,2017,6(3):29-40. 被引量：19
8郭应时,蒋拯民,白艳,唐杰帧.无人驾驶汽车路径跟踪控制方法拟人程度研究[J].中国公路学报,2018,31(8):189-196. 被引量：29
9高振海,孙天骏,何磊.汽车纵向自动驾驶的因果推理型决策[J].吉林大学学报（工学版）,2019,49(5):1392-1404. 被引量：12
10刘旖菲.逆向强化学习研究概述[J].电脑知识与技术,2021,17(15):190-191. 被引量：1

共引文献36

1张小里,赵彬侠,陈五岭,陈开勋,陈志昕,郭生武.硫酸盐还原菌腐蚀石油管材的限制因素研究[J].现代化工,2000,20(3):29-31. 被引量：4
2于俊振.基于模糊逻辑控制的体育车辆竞赛辅助系统设计[J].自动化技术与应用,2019,38(9):178-180. 被引量：2
3赵志成,华一丁,王文扬,陈正.智能车辆驾驶行为决策方法研究[J].现代信息科技,2019,3(24):191-193. 被引量：2
4曾繁琦,俞妍,卜建国,庞海龙,资新运.基于有限状态机的军用起动/发电一体化混合动力车辆能量管理策略研究[J].科学技术与工程,2020,20(18):7472-7483. 被引量：7
5黄正斌,孟来登,韩宇.基于强化学习的循迹小车实现[J].仪表技术,2020(7):15-17. 被引量：2
6郑振华,刘其朋.基于视觉特征提取的强化学习自动驾驶系统[J].复杂系统与复杂性科学,2020,17(4):30-37. 被引量：7
7宋晓琳,盛鑫,曹昊天,李明俊,易滨林,黄智.基于模仿学习和强化学习的智能车辆换道行为决策[J].汽车工程,2021,43(1):59-67. 被引量：18
8张智飞,李胜超,杨方媛.自动驾驶车辆行为决策方法研究[J].内燃机与配件,2021(4):169-170. 被引量：1
9吴昊天,牟康伟,王江东.多维恶劣场景下基于有限状态机的决策控制方法研究[J].质量与认证,2021(11):51-54. 被引量：2
10曹旨昊,秦槐阳,范元昊,石曜华.有限状态机算法在毕业论文格式检测中的应用[J].福建电脑,2021,37(11):116-118.

同被引文献14

1唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：21
2丁泽亮,胡宇辉,龚建伟,熊光明,吕超.基于深度学习的自适应场景路面提取方法[J].北京理工大学学报,2019,39(11):1133-1137. 被引量：8
3熊璐,杨兴,卓桂荣,冷搏,章仁夑.无人驾驶车辆的运动控制发展现状综述[J].机械工程学报,2020,56(10):127-143. 被引量：142
4刘照麟,陈吉清,兰凤崇,夏红阳.基于轨迹张量的自动驾驶复合信息综合映射方法[J].机械工程学报,2020,56(16):214-226. 被引量：5
5郭景华,李文昌,罗禹贡,陈涛,李克强.基于深度强化学习的驾驶员跟车模型研究[J].汽车工程,2021,43(4):571-579. 被引量：10
6邓小豪,侯进,谭光鸿,万斌杨,曹婷婷.基于强化学习的多目标车辆跟随决策算法[J].控制与决策,2021,36(10):2497-2503. 被引量：10
7Dong Wu,Man-Wen Liao,Wei-Tian Zhang,Xing-Gang Wang,Xiang Bai,Wen-Qing Cheng,Wen-Yu Liu.YOLOP:You Only Look Once for Panoptic Driving Perception[J].Machine Intelligence Research,2022,19(6):550-562. 被引量：22
8尹凤仪,刘芳,吴向阳.基于改进人工势场法的多无人车编队路径规划[J].无人系统技术,2022,5(6):24-30. 被引量：7
9田康,于镝,李擎,张宏昌,吴迎年,范玲玲.基于改进TD3的自动驾驶车道保持决策方法[J].北京交通大学学报,2022,46(5):84-94. 被引量：3
10陈越,焦朋朋,白如玉,李汝鉴.基于深度强化学习的自动驾驶车辆跟驰行为建模[J].交通信息与安全,2023,41(2):67-75. 被引量：6

引证文献1

1顾俊,张乃斯,李胜飞,谭森起,宋卓,郑修磊,罗天.结构化道路下强化学习自动驾驶技术研究综述[J].无人系统技术,2024,7(3):1-13.

1Unit 8 It must belong to Carla.[J].时代英语（初中）,2022(6):49-54.
2陈忠超,李娟,邓朋朋,张永富,唐钱东.贵州省村庄规划便民服务系统建设与应用[J].测绘与空间地理信息,2023,46(6):96-98.
3刘卫国,项志宇,刘锐,李国栋,王子旭.基于深度学习的端到端车辆运动规划方法研究[J].汽车工程,2023,45(8):1343-1352. 被引量：2
4任华山,陆永欢,徐祝勤.基于石墨间隙技术的电涌保护器设计[J].机电产品开发与创新,2023,36(4):72-76. 被引量：1
5毛会策,于航,焦瑜,唐寅,张克歌.高纬度地区居住空间室内环境舒适度调查研究[J].节能,2023,42(7):1-5.
6刘树勇,柴凯,韦云鹏,楼京俊.基于相空间重构和卷积神经网络的混沌信号识别方法[J].海军工程大学学报,2023,35(3):59-68. 被引量：1
7余镇,樊志华,石宏雨,李志华.基于代理优化算法的水下滑翔机外形优化设计[J].机械强度,2023,45(4):879-886.
8阮永芬,张虔,乔文件,闫明,郭宇航.盾构施工地表沉降的无监督学习预估方法[J].安全与环境学报,2023,23(7):2270-2279. 被引量：2

电子测量技术

2023年第8期

浏览历史

内容加载中请稍等...

基于改进PPO算法的自动驾驶技术研究被引量：1

参考文献4

二级参考文献11

共引文献36

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进PPO算法的自动驾驶技术研究 被引量：1

参考文献4

二级参考文献11

共引文献36

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进PPO算法的自动驾驶技术研究被引量：1