基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型被引量：3

Decision model for automatic vehicle driving based on WGAIL-DDPG(λ)

下载PDF

导出

摘要优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中,基于驾驶安全性、稳定性的车辆行驶性能要求,对强化学习模型中的奖励函数进行了针对性设计;通过引入模仿学习有效提升了强化学习过程中的学习效率;通过合理的增益调度器设计,保证了从模仿学习到强化学习的平稳过渡.实验结果表明,在稳定性上,智能体偏离道路中线的程度一直在30%内波动;在安全性上,智能体与周边其他车辆的安全距离基本保持在10 m以上;在模型泛化性方面,智能体在许多未训练过的复杂弯道也能很好地完成安全、平稳的驾驶任务;与原始DDPG(deep deterministic policy gradient)算法相比,该模型在学习速度上提升了约3.4倍,说明所提出的模型在保证自动驾驶系统可靠决策的同时有效提升了强化学习的效率,进一步实验证明其适用于不同的驾驶条件. Better reliability,learning efficiency and model generalization are essential for automatic vehicle driving system research.Therefore,a WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))model for automatic vehicle driving decision is proposed based on deep reinforcement learning theoretical framework.In which,the reward function of the reinforcement learning model is directionally designed based on the performance requirements of vehicle driving safety and stability.The learning efficiency is improved through a proposed imitation learning strategy,and a rational gain regulator is designed to smooth the transition from imitation to reinforcement phases.Test results show that in terms of stability,the degree of agent deviation from the road center line fluctuates within 30%all the time;in terms of safety,the distance from the agent to the target vehicles is maintained at more than 10 m;in the aspect of model generalization,the agent can complete the safe and stable driving task in many untrained complicated corners.Compared with the original DDPG(deep deterministic policy gradient)algorithm,the model improves the learning speed by about 3.4 times.The proposed model can ensure the automatic vehicle driving system make accurate decisions,and improve the training efficiency at the same time.Additionally,extended test also proves its good adaptability for different driving conditions.

作者张明恒吕新飞万星吴增文 ZHANG Mingheng;Lü Xinfei;WAN Xing;WU Zengwen(State Key Laboratory of Structural Analysis for Industrial Equipment, Dalian University of Technology, Dalian 116024, China;School of Automotive Engineering, Dalian University of Technology, Dalian 116024, China)

机构地区大连理工大学工业装备结构分析国家重点实验室大连理工大学汽车工程学院

出处《大连理工大学学报》 CAS CSCD 北大核心 2022年第1期77-84,共8页 Journal of Dalian University of Technology

基金国家自然科学基金资助项目(51675077) 中国博士后科学基金资助项目(2015M581329,2017T100178).

关键词自动驾驶决策深度强化学习模仿学习深度确定性策略梯度算法 automatic driving decision deep reinforcement learning imitation learning deep deterministic policy gradient algorithm

分类号 U46 [机械工程—车辆工程]

引文网络
相关文献

参考文献8

1王江锋,刘雨桐,王梦玉,闫学东.车车通信环境下基于驾驶意图共享的车辆避撞预警算法[J].中国公路学报,2020,33(6):65-76. 被引量：13
2熊光明,李勇,王诗源.基于有限状态机的智能车辆交叉口行为预测与控制[J].北京理工大学学报,2015,35(1):34-38. 被引量：16
3陈雪梅,田赓,苗一松,龚建伟.城市环境下无人驾驶车辆驾驶规则获取及决策算法[J].北京理工大学学报,2017,37(5):491-496. 被引量：10
4夏伟,李慧云.基于深度强化学习的自动驾驶策略学习方法[J].集成技术,2017,6(3):29-40. 被引量：19
5王丙琛,司怀伟,谭国真.基于深度强化学习的自动驾驶车控制算法研究[J].郑州大学学报（工学版）,2020,41(4):41-45. 被引量：19
6黄志清,曲志伟,张吉,张严心,田锐.基于深度强化学习的端到端无人驾驶决策[J].电子学报,2020,48(9):1711-1719. 被引量：19
7张斌,何明,陈希亮,吴春晓,刘斌,周波.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270. 被引量：26
8谷新平,韩云鹏,于俊甫.基于决策机理与支持向量机的车辆换道决策模型[J].哈尔滨工业大学学报,2020,52(7):111-121. 被引量：19

二级参考文献29

1李克强.汽车技术的发展动向及我国的对策[J].汽车工程,2009,31(11):1005-1016. 被引量：38
2何宁,赵治国,朱阳.基于TORCS平台的虚拟车辆仿真系统开发[J].中国制造业信息化（学术版）,2010,39(8):37-41. 被引量：5
3裴晓飞,刘昭度,马国成,叶阳.汽车主动避撞系统的安全距离模型和目标检测算法[J].汽车安全与节能学报,2012,3(1):26-33. 被引量：69
4张良力,吴超仲,黄珍,王斌.面向安全预警的机动车驾驶意图研究现状与展望[J].交通信息与安全,2012,30(3):87-92. 被引量：10
5刘国荣,张扬名.移动机器人轨迹跟踪的模糊PID-P型迭代学习控制[J].电子学报,2013,41(8):1536-1541. 被引量：36
6王相海,丛志环,方玲玲,秦钜鳌.基于HMM的车辆行驶状态实时判别方法研究[J].自动化学报,2013,39(12):2131-2142. 被引量：8
7刘赫.动物行为训练的理论基础[J].中国动物保健,2014,16(2):23-25. 被引量：11
8杨帆.无人驾驶汽车的发展现状和展望[J].上海汽车,2014(3):35-40. 被引量：97
9商强,谭德荣,高松,郭栋,王晓原.基于驾驶倾向性辨识的避撞-报警算法[J].科学技术与工程,2014,22(13):282-285. 被引量：10
10翁岳暄,多尼米克.希伦布兰德.汽车智能化的道路:智能汽车、自动驾驶汽车安全监管研究[J].科技与法律,2014,0(4):632-655. 被引量：50

共引文献124

1阮钦,杨为.基于融合多头注意力机制和门控循环单元的驾驶员意图识别方法[J].中国科技论文在线精品论文,2023(1):8-20.
2张小里,赵彬侠,陈五岭,陈开勋,陈志昕,郭生武.硫酸盐还原菌腐蚀石油管材的限制因素研究[J].现代化工,2000,20(3):29-31. 被引量：4
3梁明兰,王峥,陈名松.基于可重构阵列架构的强化学习计算引擎[J].集成技术,2018,7(6):19-30. 被引量：1
4宋威龙,熊光明,王诗源,陈慧岩.基于驾驶员类型分析的智能车辆交叉口行为决策[J].北京理工大学学报,2016,36(9):917-922. 被引量：11
5陈雪梅,田赓,苗一松,龚建伟.城市环境下无人驾驶车辆驾驶规则获取及决策算法[J].北京理工大学学报,2017,37(5):491-496. 被引量：10
6熊璐,康宇宸,张培志,朱辰宇,余卓平.无人驾驶车辆行为决策系统研究[J].汽车技术,2018(8):1-9. 被引量：38
7王程博,张新宇,张加伟,刘硕.未知环境中无人驾驶船舶智能避碰决策方法[J].中国舰船研究,2018,13(6):72-77. 被引量：14
8冀杰,黄岩军,李云伍,吴飞.基于有限状态机的车辆自动驾驶行为决策分析[J].汽车技术,2018(12):1-7. 被引量：13
9张嘉丰.5G神经网络在自动驾驶技术中的应用[J].济南职业学院学报,2018(6):122-124. 被引量：1
10王淑青,毛月祥,袁晓辉.有限状态机的多AGV路径优化策略[J].华侨大学学报（自然科学版）,2019,40(2):239-244. 被引量：4

同被引文献19

1彭志平,李绍平.分层强化学习研究进展[J].计算机应用研究,2008,25(4):974-978. 被引量：7
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
3张斌,何明,陈希亮,吴春晓,刘斌,周波.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270. 被引量：26
4王丙琛,司怀伟,谭国真.基于深度强化学习的自动驾驶车控制算法研究[J].郑州大学学报（工学版）,2020,41(4):41-45. 被引量：19
5宋晓琳,盛鑫,曹昊天,李明俊,易滨林,黄智.基于模仿学习和强化学习的智能车辆换道行为决策[J].汽车工程,2021,43(1):59-67. 被引量：18
6常富祥,丁佳,魏福华,姚寿文,王瑀,张家豪.虚拟环境下端对端深度学习的自动驾驶方法[J].兵器装备工程学报,2021,42(3):186-192. 被引量：2
7余伶俐,魏亚东,霍淑欣.基于MCPDDPG的智能车辆路径规划方法及应用[J].控制与决策,2021,36(4):835-846. 被引量：12
8问泽藤,温淑慧,张迪.未知环境下移动机器人自主避障算法的研究[J].燕山大学学报,2021,45(3):274-282. 被引量：6
9Yunpeng WANG,Kunxian ZHENG,Daxin TIAN,Xuting DUAN,Jianshan ZHOU.Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving[J].Frontiers of Information Technology & Electronic Engineering,2021,22(5):673-686. 被引量：3
10吴昊天,牟康伟,王江东.多维恶劣场景下基于有限状态机的决策控制方法研究[J].质量与认证,2021(11):51-54. 被引量：2

引证文献3

1曹洁,邵紫旋,侯亮.基于分层强化学习的自动驾驶车辆掉头问题研究[J].计算机应用研究,2022,39(10):3008-3012. 被引量：1
2宋倩,蓝俊欢,罗富贵,李明珍.基于强化学习的智能车避障决策算法[J].电子设计工程,2024,32(12):181-186.
3李伟东,黄振柱,何精武,马草原,葛程.改进行为克隆与DDPG的无人驾驶决策模型[J].计算机工程与应用,2024,60(14):86-95. 被引量：1

二级引证文献2

1邹启杰,李文雪,高兵,赵锡玲,张汝波.基于加权值函数分解的多智能体分层强化学习技能发现方法[J].计算机应用研究,2023,40(9):2743-2748. 被引量：1
2李琳,靳志鑫,俞晓磊,王安红.Haar小波下采样优化YOLOv9的道路车辆和行人检测[J].计算机工程与应用,2024,60(20):207-214.

1卢笑,竺一薇,阳牡花,周炫余,王耀南.联合图像与单目深度特征的强化学习端到端自动驾驶决策方法[J].武汉大学学报（信息科学版）,2021,46(12):1862-1871. 被引量：3
2杜原野,陈海霞,李彬.船用LNG供气系统罐温罐压控制方法[J].船舶标准化工程师,2021,54(6):103-106.
3叶伟,朱明.基于空间特征聚合的车道线检测算法[J].计算机系统应用,2021,30(12):235-242. 被引量：1
4李明昱.高校微课移动云平台设计研究初探[J].菏泽学院学报,2021,43(6):66-70. 被引量：6
5朱长昊,张凤登,杨甲丰.基于嵌入式多核系统的新型边界公平调度器设计[J].软件导刊,2021,20(6):102-108. 被引量：1
6张红霞,王琪,王登岳,王奔.基于深度学习的区块链蜜罐陷阱合约检测[J].通信学报,2022,43(1):194-202. 被引量：7
7王霄汉,张霖,任磊,谢堃钰,王昆玉,叶飞,陈真.基于强化学习的车间调度问题研究简述[J].系统仿真学报,2021,33(12):2782-2791. 被引量：9
8祝一帆,王海涛,李可,吴贺俊.一种高精度路面裂缝检测网络结构:Crack U-Net[J].计算机科学,2022,49(1):204-211. 被引量：15
9高航,王伟光.基于深度强化学习的道路信号灯控制算法[J].计算机仿真,2021,38(10):154-159. 被引量：6
10孟安波,陈顺,王陈恩,丁伟锋,蔡涌烽,符嘉晋,周华敏.基于混沌CSO优化时序注意力GRU模型的超短期风电功率预测[J].电网技术,2021,45(12):4692-4700. 被引量：20

大连理工大学学报

2022年第1期

浏览历史

内容加载中请稍等...

基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型被引量：3

参考文献8

二级参考文献29

共引文献124

同被引文献19

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型 被引量：3

参考文献8

二级参考文献29

共引文献124

同被引文献19

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型被引量：3