基于时序差分学习模型预测控制的一体化自动驾驶换道策略

Integrated Autonomous Driving Lane Change Policy Based on Temporal Difference Learning Model Predictive Control

导出

摘要具有自进化能力的自动驾驶换道策略有望在复杂开放的交通环境中提升性能,以应对更多的未知场景。时序差分学习模型预测控制(Temporal difference learning for model predictive control,TD-MPC)结合有模型和无模型强化学习方法的优势,具有学习效率高、性能优异的特点。基于此,为了提高自动驾驶换道策略的整体性能,提出基于TD-MPC的自动驾驶一体化换道策略。具体来说,针对自动换道问题,提出基于驾驶倾向网络的一体化自动驾驶换道策略架构,构建强化学习问题并设计完备的奖励函数,对决策规划优化问题进行统一求解。应用TD-MPC算法设计内部模型来预测未来状态和奖励,实现短时域内的局部轨迹优化,同时使用时序差分学习实现对长期汇报的估计,以得到驾驶倾向网络参数。所提出方法在高保真仿真环境中被验证,结果表明,所提出方法相比规则方案保证行驶效率,并且提高安全性和舒适性。同时与软演员-评论家算法(Soft actor critic,SAC)相比,实现了7~9倍的学习效率提升。 Autonomous vehicles are expected to achieve self-evolution in the real-world environment to gradually cover more complex and changing scenarios.Temporal difference learning for model predictive control(TD-MPC)combines the advantages of model-free and model-free reinforcement learning methods,and has the characteristics of high learning efficiency and excellent performance.Based on this,in order to improve the overall performance of the automated lane change policy,an integrated automated lane change method based on TD-MPC is proposed.Specifically,an integrated architecture based on driving propensity network is proposed.The reinforcement learning problem is constructed and a complete reward function is designed to solve the decision planning optimization problem in a unified way.The TD-MPC algorithm is used to design an internal model to predict the future state and reward,so as to realize the local trajectory optimization in the short time domain.At the same time,the temporal difference learning is used to estimate the long-term report to obtain the parameters of the driving tendency network.The proposed method is verified in a high-fidelity simulation environment.The results show that compared with the regular scheme,the proposed method ensures driving efficiency,and improves safety and comfort.At the same time,compared with the soft actor critic(SAC)algorithm,the learning efficiency is improved by 7 to 9 times.

作者杨硕李时珍赵中原黄小鹏黄岩军 YANG Shuo;LI Shizhen;ZHAO Zhongyuan;HUANG Xiaopeng;HUANG Yanjun(School of Automotive Studies,Tongji University,Shanghai 201804;College of Automation,Nanjing University of Information Science and Technology,Nanjing 210044;China Electronics Technology Eastern Communication Group Co.,Ltd.,Guangdong 519060)

机构地区同济大学汽车学院南京信息工程大学自动化学院中电科东方通信集团有限公司

出处《机械工程学报》 EI CAS CSCD 北大核心 2024年第10期329-338,共10页 Journal of Mechanical Engineering

基金国家自然科学基金-企业创新发展联合基金资助项目(U23B2061)。

关键词自动驾驶强化学习一体化决策规划 autonomous driving reinforcement learning integrated decision making and planning

分类号 U461 [机械工程—车辆工程]

引文网络
相关文献

参考文献8

1张珂,刘畅,兰鹏宇.基于改进人工势场法的局部路径规划[J].汽车文摘,2021(7):59-62. 被引量：8
2杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：37
3张志勇,黄大洋,黄彩霞,胡林,杜荣华.TD3算法改进与自动驾驶汽车并道策略学习[J].机械工程学报,2023,59(8):224-234. 被引量：3
4高振海,闫相同,高菲.基于逆向强化学习的纵向自动驾驶决策方法[J].汽车工程,2022,44(7):969-975. 被引量：7
5杜荣华,胡鸿飞,高凯,黄浩.基于变预测时域MPC的自动驾驶汽车轨迹跟踪控制研究[J].机械工程学报,2022,58(24):275-288. 被引量：7
6Xuanyu Wang,Xudong Qi,Ping Wang,Jingwen Yang.Decision making framework for autonomous vehicles driving behavior in complex scenarios via hierarchical state machine[J].Autonomous Intelligent Systems,2021,1(1):135-146. 被引量：5
7Liwen Wang,Shuo Yang,Kang Yuan,Yanjun Huang,Hong Chen.A Combined Reinforcement Learning and Model Predictive Control for Car-Following Maneuver of Autonomous Vehicles[J].Chinese Journal of Mechanical Engineering,2023,36(3):315-325. 被引量：2
8林歆悠,叶卓明,周斌豪.基于DQN强化学习的自动驾驶转向控制策略[J].机械工程学报,2023,59(16):315-324. 被引量：3

二级参考文献45

1唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：20
2金立生,Bartvan Arem,杨双宾,Mascha van der Voort,Martijn Tideman.高速公路汽车辅助驾驶安全换道模型[J].吉林大学学报（工学版）,2009,39(3):582-586. 被引量：28
3席裕庚,李德伟,林姝.模型预测控制--现状与挑战[J].自动化学报,2013,39(3):222-236. 被引量：457
4修彩靖,陈慧.基于改进人工势场法的无人驾驶车辆局部路径规划的研究[J].汽车工程,2013,35(9):808-811. 被引量：63
5陈慧,高博麟,徐帆.车辆质心侧偏角估计综述[J].机械工程学报,2013,49(24):76-94. 被引量：33
6霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：148
7段建民,杨晨,石慧.基于Pure Pursuit算法的智能车路径跟踪[J].北京工业大学学报,2016,42(9):1301-1306. 被引量：35
8Hongyan GUO,Feng LIU,Ru YU,Zhenping SUN,Hong CHEN.Regional path moving horizon tracking controller design for autonomous ground vehicles[J].Science China(Information Sciences),2017,60(1):197-203. 被引量：9
9江杰,任恒靓.基于改进人工势场法的移动机器人路径规划的研究[J].自动化应用,2017(8):80-81. 被引量：12
10唐志荣,冀杰,吴明阳,方京城,陈明哲.基于改进人工势场法的车辆路径规划与跟踪[J].西南大学学报（自然科学版）,2018,40(6):174-182. 被引量：43

共引文献64

1李瑜,张占强,孟克其劳,魏皓天.基于改进深度确定性策略梯度算法的微电网能量优化调度[J].电子测量技术,2023,46(2):73-80. 被引量：3
2张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
3何忠文.电网信息物理系统耦合决策控制技术研究进展[J].集成电路应用,2020,37(6):1-3.
4杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究——理论与实验[J].智能系统学报,2020,15(5):888-899. 被引量：18
5张永超,于智伟,丁丽林.基于强化学习的煤矸石分拣机械臂智能控制算法研究[J].工矿自动化,2021,47(1):36-42. 被引量：10
6张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：18
7王瑞星,董诗音,江飞龙,黄胜全.稀疏奖励下基于强化学习的异构多智能体对抗[J].信息技术,2021,45(5):12-20. 被引量：2
8宋宏川,詹浩,夏露,李向阳,刘艳.基于深度确定性策略梯度算法的战机规避中距空空导弹研究[J].航空工程进展,2021,12(3):85-94. 被引量：3
9周仕承,刘京菊,钟晓峰,卢灿举.基于深度强化学习的智能化渗透测试路径发现[J].计算机科学,2021,48(7):40-46. 被引量：15
10赵毓,郭继峰,颜鹏,白成超.稀疏奖励下多航天器规避决策自学习仿真[J].系统仿真学报,2021,33(8):1766-1774. 被引量：5

1范久清,王元,高可娱.网络学习对高中生影响的调查分析[J].才智,2018,0(17):180-181.
2王萍,张宽裕,郭锐.珍珠首饰网购消费者享乐性和功利性决策风格比较研究[J].宝石和宝石学杂志,2018,20(2):67-73.
3张新锋,汪亚君,张浩杰,赵娟,贾瑞豪.考虑驾驶风格的高速行驶工况自动换道决策规划研究[J].汽车技术,2024(7):17-28. 被引量：1
4李红莲.迎接AI大模型新时代智能安防行业大模型的落地应用与未来发展探讨[J].中国安防,2024(7):1-15.
5Junkai Ren,Yixing Lan,Xin Xu,Yichuan Zhang,Qiang Fang,Yujun Zeng.Deep reinforcement learning using least-squares truncated temporal-difference[J].CAAI Transactions on Intelligence Technology,2024,9(2):425-439.
6程硕,夏新,NAKANO Kimihiko.智能网联汽车多目标预测优化换道决策方法[J].同济大学学报（自然科学版）,2024,52(7):1109-1117.
7任志玲,张文凯.基于ESO的PMSM无模型快速超螺旋滑模预测控制[J].电气工程学报,2024,19(2):16-25.
8侯利民,李坤,王巍,尹玉萍,王禹.基于ESMDO的级联双模型永磁同步电机鲁棒控制[J].控制工程,2024,31(7):1324-1334.
9郑敏,郑苏晋,刘皖.基于R-Vine Copula的财险公司经济资本度量与分散化效益研究[J].保险研究,2024(6):55-69.

机械工程学报

2024年第10期

浏览历史

内容加载中请稍等...

基于时序差分学习模型预测控制的一体化自动驾驶换道策略

参考文献8

二级参考文献45

共引文献64

相关作者

相关机构

相关主题

浏览历史