基于深度强化学习的智能车辆行为决策研究被引量：2

Intelligent Vehicles Behavior Decision-making Based on Deep Reinforcement Learning

下载PDF

导出

摘要自动驾驶车辆决策系统直接影响车辆综合行驶性能,是实现自动驾驶技术需要解决的关键难题之一。基于深度强化学习算法DDPG(deep deterministic policy gradient),针对此问题提出了一种端到端驾驶行为决策模型。首先,结合驾驶员模型选取自车、道路、干扰车辆等共64维度状态空间信息作为输入数据集对决策模型进行训练,决策模型输出合理的驾驶行为以及控制量,为解决训练测试中的奖励和控制量突变问题,改进DDPG决策模型对决策控制效果进行优化,并在TORCS(the open racing car simulator)平台进行仿真实验验证。结果表明:所提出的决策模型可以根据车辆和环境实时状态信息输出合理的驾驶行为以及控制量,与DDPG模型相比,改进的模型具有更好的控制精度,且车辆横向速度显著减小,车辆舒适性以及车辆稳定性明显改善。 Autonomous driving vehicle decision-making system has direct influence on driving performance.It is one of the key challenges to be addressed to realize fully autonomous driving.To solve this problem,a driving decision-making system based on deep reinforcement learning algorithm deep deterministic policy gradient(DDPG)was proposed.Firstly,a total of 64 dimensions of state spaces information such as ego vehicle information,road information and obstacle vehicle information on the basis of a driver model were selected as input variables of the constructed model.Then the decision-making was trained and outputs reasonable driving behaviors and control variable values.Finally,aiming at the problems of reward value and control variable values saltation,the DDPG decision model was improved to optimize decision control effect.To verify the performance of the proposed decision making model,simulation experiments were conducted on the open racing car simulator(TORCS)platform.The results show that the proposed decision-making model can output reasonable driving behaviors and accurate control quantities based on real-time state information of vehicles and environment.Compared with the DDPG model,the improved decision-making model has better control accuracy,significantly reduces vehicle lateral speed,improves vehicle comfort and stability.

作者周恒恒高松王鹏伟崔凯晨张宇龙 ZHOU Heng-heng;GAO Song;WANG Peng-wei;CUI Kai-chen;ZHANG Yu-long(School of Transportation and Vehicle Engineering,Shandong University of Technology,Zibo 255000,China)

机构地区山东理工大学交通与车辆工程学院

出处《科学技术与工程》北大核心 2024年第12期5194-5203,共10页 Science Technology and Engineering

基金国家自然科学基金(52102465)。

关键词自动驾驶行为决策深度强化学习深度确定性策略梯度算法 autonomous driving behavior decision-making deep reinforcement learning deep deterministic policy gradient

分类号 U463 [机械工程—车辆工程]

引文网络
相关文献

参考文献7

1屈文涛,李文锐,王勇,徐剑波,贺旭飞.基于车辆对道路不满意度的微观换道决策[J].科学技术与工程,2022,22(30):13497-13506. 被引量：4
2侯海晶,金立生,关志伟,杜海兴,李敬君.驾驶风格对驾驶行为的影响[J].中国公路学报,2018,31(4):18-27. 被引量：42
3石建军,谢君鸿,潘芋燕,李永行.单车道手动-自动驾驶混合交通流仿真分析[J].科学技术与工程,2022,22(28):12651-12658. 被引量：2
4张永梅,赵家瑞,吴爱燕.好奇心驱动的深度强化学习机器人路径规划算法[J].科学技术与工程,2022,22(25):11075-11083. 被引量：9
5章军辉,陈大鹏,李庆.自动驾驶技术研究现状及发展趋势[J].科学技术与工程,2020,20(9):3394-3403. 被引量：41
6钱玉宝,余米森,郭旭涛,黄华宝,李世震.无人驾驶车辆智能控制技术发展[J].科学技术与工程,2022,22(10):3846-3858. 被引量：26
7熊璐,杨兴,卓桂荣,冷搏,章仁夑.无人驾驶车辆的运动控制发展现状综述[J].机械工程学报,2020,56(10):127-143. 被引量：148

二级参考文献130

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：51
2陈慧,王洁新.基于驾驶人不满度的高速公路自动驾驶换道决策[J].中国公路学报,2019,32(12):1-9. 被引量：24
3解瀚光,朱红儒,王阳,黄武陵,孔旗,陈娜.自动驾驶物流车技术及标准需求研究[J].中国汽车,2020(3):57-62. 被引量：6
4陈建珍,潘涌智,李任波.基于Matlab的二维实验数据粗差检测[J].计量技术,2007(5):61-63. 被引量：4
5张磊,王建强,杨馥瑞,李克强.驾驶员行为模式的因子分析和模糊聚类[J].交通运输工程学报,2009,9(5):121-126. 被引量：14
6李玮,高德芝,段建民.智能车辆自由换道模型研究[J].公路交通科技,2010,27(2):119-123. 被引量：57
7赵熙俊,陈慧岩.智能车辆路径跟踪横向控制方法的研究[J].汽车工程,2011,33(5):382-387. 被引量：109
8吕文杰,马戎,李岁劳,付维平.基于纯追踪模型的路径跟踪改进算法[J].测控技术,2011,30(7):93-96. 被引量：22
9邓涛,孙冬野,胡丰宾,罗勇.遗传算法优化的方向与速度综合控制驾驶员模型[J].重庆大学学报（自然科学版）,2011,34(9):1-8. 被引量：6
10刘志刚.汽车发展史简述[J].汽车运用,2000,0(12):15-16. 被引量：8

共引文献256

1柴晨,冯蕊.基于半监督学习的驾驶路怒情绪低侵入度分级辨识方法[J].中国公路学报,2024,37(8):231-247.
2黎国溥,陈升东,王亮,邹凯,袁峰.基于改进YOLOv5的车辆端目标检测[J].计算机系统应用,2022,31(12):127-134. 被引量：7
3赵浙栋,张成涛.改进YOLO v5s的道路目标检测模型轻量化研究[J].汽车零部件,2023(8):67-71.
4迟瑞娟,熊泽鑫,姜龙腾,马悦琦,黄修炼,朱晓龙.基于模型预测的插秧机路径跟踪控制算法[J].农业机械学报,2022,53(11):22-30. 被引量：15
5黄旭东,常奇,王华鲜.港口智能引导车的多激光雷达外参标定算法[J].港口科技,2022(11):6-10. 被引量：2
6门长贵.干法粉煤加压气化技术的开发现状和应用前景[J].煤化工,2000,28(1):16-19. 被引量：17
7张正滢.乌梅人丹工艺控制点的优选及探讨[J].中成药,2000,22(4):312-313.
8刘恒权,孙时知,赵国鹏,于欣伟,尚世南.粘性溶液中炭渣颗粒的去除研究[J].中国矿业,2000,9(3):61-63.
9王蒙,喻伟,尹小梅,吴义虎.驾驶人车辆换道行为模型的建立与分析[J].交通科学与工程,2019,35(2):106-112. 被引量：2
10陈孟柯,马健霄,陆涛,潘义勇.高速公路隧道行车视觉特性分析[J].交通信息与安全,2019,37(3):86-92. 被引量：22

同被引文献12

1赵奇慧,刘艳洋,项炎平.基于深度学习的单阶段车辆检测算法综述[J].计算机应用,2020,40(S02):30-36. 被引量：11
2高振海,闫相同,高菲,孙天骏.仿驾驶员DDPG汽车纵向自动驾驶决策方法[J].汽车工程,2021,43(12):1737-1744. 被引量：12
3李臻,兰天然,蒋朝阳,何志祝,宋正河.基于KITTI数据集的无人车单目惯性SLAM算法评估[J].实验技术与管理,2022,39(2):50-55. 被引量：6
4张葆青,陈爽,辛越峰.面向城市信号灯环境的多模混合动力汽车经济性驾驶研究[J].重庆理工大学学报（自然科学）,2023,37(1):280-290. 被引量：1
5胡子剑,高晓光,万开方,张乐天,汪强龙,NERETIN Evgeny.异策略深度强化学习中的经验回放研究综述[J].自动化学报,2023,49(11):2237-2256. 被引量：3
6唐斌,刘光耀,江浩斌,田宁,米伟,王春宏.基于柔性演员-评论家算法的决策规划协同研究[J].交通运输系统工程与信息,2024,24(2):105-113. 被引量：1
7王颖迪,李庆锋,王师,刘伟,王博远,肖建华.纯电动汽车经济性驾驶的影响因素及应用[J].汽车工程学报,2024,14(3):519-530. 被引量：1
8戢杨杰,张馨雨,杨紫茹,周上航,黄岩军,曹建永,熊璐,余卓平.多智能网联汽车轨迹规划:现状与展望[J].机械工程学报,2024,60(10):129-146. 被引量：3
9高德勇,陈泰达,缪兰.改进YOLOv8n的道路目标检测算法[J].计算机工程与应用,2024,60(16):186-197. 被引量：1
10杨志渊,罗亮,吴天阳,于博向.改进YOLOv8的轻量级光学遥感图像船舶目标检测算法[J].计算机工程与应用,2024,60(16):248-257. 被引量：2

引证文献2

1王轩慧,吴颖,邵凯扬,谢德燕,董建业.基于改进YOLOv8s的自动驾驶多目标跟踪检测研究[J].汽车技术,2024(12):1-7.
2蒋立伟,叶永钢,周波,肖文超,周明军,彭庭锋.基于改进DDPG的经济性自动驾驶汽车决策方法[J].内燃机与配件,2024(22):1-5.

1吴志刚.智能化在设备管理中的应用[J].机械工程与自动化,2024(3):222-223.
2何剑军.基于深度确定性策略梯度算法的新型有源配电网分区协同调控方法[J].长江信息通信,2024,37(4):162-164.
3张腾.CEO来源与数字化转型的研究[J].企业观察家,2023(11):72-74.
4顾扬,程玉虎,王雪松.基于优先采样模型的离线强化学习[J].自动化学报,2024,50(1):143-153. 被引量：1
5陈恒星,刘一鸣.基于强化学习的自动驾驶联合训练方法[J].机电工程技术,2024,53(3):131-135.
6王琴,丛颖.“避男标签”:小红书女性用户的算法抵抗研究[J].中华女子学院学报,2024,36(3):71-79.
7周贝妮,韩皓,李易.基于能量场的城市道路车辆交互强度研究[J].公路交通科技,2024,41(2):203-211. 被引量：1
8裴玉龙,傅博涵,王子奇,张杰.引力理论框架下基于综合竞争力的自动驾驶拟人换道决策模型[J].交通运输系统工程与信息,2024,24(1):66-80. 被引量：1
9李新凯,虎晓诚,马萍,张宏立.基于改进DDPG的无人驾驶避障跟踪控制[J].华南理工大学学报（自然科学版）,2023,51(11):44-55. 被引量：6
10乔冬,何利文.基于轻量化YoloV5s的血癌细胞检测[J].软件工程与应用,2024,13(2):223-233.

科学技术与工程

2024年第12期

浏览历史

内容加载中请稍等...

基于深度强化学习的智能车辆行为决策研究被引量：2

参考文献7

二级参考文献130

共引文献256

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的智能车辆行为决策研究 被引量：2

参考文献7

二级参考文献130

共引文献256

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的智能车辆行为决策研究被引量：2