基于PPO算法的自动驾驶人机交互式强化学习方法

Human-machine interactive reinforcement learning method for autonomous driving based on PPO algorithm

下载PDF

导出

摘要针对当前自动驾驶领域中深度强化学习(deep reinforcement learning,DRL)所面临的高计算性能需求和收敛速度慢的问题,将变分自编码器(variational autoencoder,VAE)和近端策略优化算法(proximal policy optimization,PPO)相结合。通过采用VAE的特征编码技术,将Carla模拟器获取的语义图像有效转换为状态输入,以此应对DRL在处理复杂自动驾驶任务时的高计算负担。为了解决DRL训练中出现的局部最优和收敛速度慢的问题,引入了驾驶干预机制和基于驾驶员引导的经验回放机制,在训练初期和模型陷入局部最优时进行驾驶干预,以提升模型的学习效率和泛化能力。通过在交通路口左转场景进行的实验验证,结果表明,在驾驶干预机制的帮助下,训练初期模型的性能提升加快,且模型陷入局部最优时通过驾驶干预,模型的性能进一步提升,且在复杂场景下提升更为明显。 To address the high computational demands and slow convergence faced by DRL in the field of autonomous driving,this paper integrated VAE with PPO algorithm.By adopting VAE s feature encoding technology,it effectively transformed semantic images obtained from the Carla simulator into state inputs,thus tackling the high computational load of DRL in handling complex autonomous driving tasks.To solve the issues of local optima and slow convergence in DRL training,it introduced a driving intervention mechanism and a driver-guided experience replay mechanism.These mechanisms applied driving interventions during the initial training phase and when the model encounters local optima,so as to enhance the model s learning efficiency and generalization capability.Experimental validation,conducted in left-turn scenarios at intersections,shows that with the aid of the driving intervention mechanism,the model s performance improves more rapidly in the initial training phase.Moreover,driving interventions when encountering local optima further enhance the model s performance,with even more significant improvements observed in complex scenarios.

作者时高松赵清海董鑫贺家豪刘佳源 Shi Gaosong;Zhao Qinghai;Dong Xin;He Jiahao;Liu Jiayuan(College of Mechanical&Electrical Engineering,Qingdao University,Qingdao Shandong 266071,China)

机构地区青岛大学机电工程学院

出处《计算机应用研究》 CSCD 北大核心 2024年第9期2732-2736,共5页 Application Research of Computers

基金国家自然科学基金资助项目(52175236)。

关键词自动驾驶深度强化学习特征编码驾驶干预经验回放 autonomous driving deep reinforcement learning feature encoding driving intervention experience replay

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1冯忠祥,李靖宇,张卫华,尤志栋.面向人机共驾车辆的驾驶人风险感知研究综述[J].交通信息与安全,2022,40(2):1-10. 被引量：4
2赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：62
3段续庭,周宇康,田大新,郑坤贤,周建山,孙亚夫.深度学习在自动驾驶领域应用综述[J].无人系统技术,2021,4(6):1-27. 被引量：30
4陈越,焦朋朋,白如玉,李汝鉴.基于深度强化学习的自动驾驶车辆跟驰行为建模[J].交通信息与安全,2023,41(2):67-75. 被引量：6
5许宏鑫,吴志周,梁韵逸.基于强化学习的自动驾驶汽车路径规划方法研究综述[J].计算机应用研究,2023,40(11):3211-3217. 被引量：5

二级参考文献37

1Lisha CUI,Rui MA,Pei LV,Xiaoheng JIANG,Zhimin GAO,Bing ZHOU,Mingliang XU.MDSSD:multi-scale deconvolutional single shot detector for small objects[J].Science China(Information Sciences),2020,63(2):98-100. 被引量：18
2朱冰,李伟男,赵健,韩嘉懿.考虑驾驶人驾驶习性的自适应车道偏离预警策略[J].同济大学学报（自然科学版）,2019,47(S01):171-177. 被引量：8
3高德芝,段建民,郑榜贵,田炳香.智能车辆环境感知传感器的应用现状[J].现代电子技术,2008,31(19):151-156. 被引量：9
4张广林,胡小梅,柴剑飞,赵磊,俞涛.路径规划算法及其应用综述[J].现代机械,2011(5):85-90. 被引量：125
5刘学宽,陈李丽.浅淡产品责任的因果关系认定[J].山东法官培训学院学报,2013,29(3):93-95. 被引量：4
6吴超仲,吴浩然,吕能超.人机共驾智能汽车的控制权切换与安全性综述[J].交通运输工程学报,2018,18(6):131-141. 被引量：49
7陈兴国,俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报,2016,42(5):685-695. 被引量：32
8赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
9肖赛,雷叶维.驾驶疲劳致因及监测研究进展[J].交通科技与经济,2017,19(4):14-19. 被引量：11
10王心钰,张长青.无人驾驶汽车的法律冲突探究[J].科技导报,2017,35(19):11-11. 被引量：8

共引文献102

1唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：21
2王磊.图书订货会迈入成熟期[J].中国出版,2000(2):25-26.
3薛天.深度强化学习原理及其在机器人运动控制中的运用[J].通讯世界,2018,25(8):240-241. 被引量：3
4郑永亮,李晓坤,王琳琳,陈虹旭,杨磊.基于人工智能与机器学习技术在智慧城市的应用[J].智能计算机与应用,2019,9(1):153-158. 被引量：9
5徐耀丽,李战怀.基于概率推断的质量控制智能体[J].计算机科学,2019,46(4):8-13.
6高振洋,秦斌.深度强化学习研究进展[J].电脑知识与技术,2019,15(2):157-159. 被引量：2
7高昂,段莉,张国辉,董志明,曹洁,郭齐胜.计算机生成兵力行为建模发展现状[J].计算机工程与应用,2019,55(19):43-51. 被引量：4
8牛浩玉,汤文兵,田锦.基于深度强化学习的智能体在智慧消防中的应用研究[J].通信技术,2019,52(10):2567-2572. 被引量：6
9杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：51
10孙连秀,马玉慧.深度学习教育应用研究综述[J].中国信息技术教育,2019,0(17):98-101. 被引量：4

1岳文静,屈稳稳,林宽,王晓玲.基于机器学习的基数估计技术综述[J].计算机研究与发展,2024,61(2):413-427.
2吴文娇,郭荣佐,樊相奎.基于DRL的无人机辅助MEC任务卸载算法[J].计算机工程与设计,2024,45(9):2697-2703.
3沈婧.转换等角巧求圆中线段长[J].中学数学,2024(18):89-90.
4乔和,李增辉,刘春,胡嗣栋.基于改进好奇心的深度强化学习方法[J].计算机应用研究,2024,41(9):2635-2640.
5李晓辉,周媛媛,吕思婷,苏家楠.面向车联网的动态网络切片资源部署算法[J].北京邮电大学学报,2024,47(4):124-129.
6张佳楠,胡钊政,孟杰,胡华桦,左洁.面向车-路-图协同的分布式自动驾驶仿真平台架构及应用[J].汽车工程,2024,46(8):1335-1345.
7王丙文,付明,黄堃.基于强化学习的多园区综合能源系统经济调度[J].电测与仪表,2024,61(9):32-39.
8张昱韬,闫奇志,张炳坤,张洋铭,艾尔帕尼,徐伟.基于智慧路径规划技术的社区垃圾自动集运[J].科学技术创新,2024(22):209-212.
9陈希亮,曹雷,康凯,李晨溪.知识驱动的智能博弈对抗行动序列规划方法[J].指挥与控制学报,2024,10(4):509-515.
10郝勤正,崔理章,李欣舟.基于RF-LSTM混合神经网络的固废焚烧烟气排放浓度预测研究[J].中国资源综合利用,2024,42(8):65-67. 被引量：1

计算机应用研究

2024年第9期

浏览历史

内容加载中请稍等...

基于PPO算法的自动驾驶人机交互式强化学习方法

参考文献5

二级参考文献37

共引文献102

相关作者

相关机构

相关主题

浏览历史