联合图像与单目深度特征的强化学习端到端自动驾驶决策方法被引量：3

Reinforcement Learning Based End-to-End Autonomous Driving Decision-Making Method by Combining Image and Monocular Depth Features

原文传递

导出

摘要现有的基于深度强化学习(deep reinforcement learning,DRL)的端到端自动驾驶决策方法鲁棒性较低,存在安全隐患,且单纯依赖图像特征难以正确推断出复杂场景下的最优动作。对此,提出了一种联合图像与单目深度特征的强化学习端到端自动驾驶决策方案。首先,建立了基于竞争深度Q网络(dueling deep Q-network,Dueling DQN)的端到端决策模型,以提高模型的策略评估能力和鲁棒性。该模型根据观测数据获取当前状态,输出车辆驾驶动作(油门、转向和刹车)的离散控制量。然后,在二维图像特征的基础上提出了联合单目深度特征的状态感知方法,在自监督情况下有效提取场景深度特征,结合图像特征共同训练智能体网络,协同优化智能体的决策。最后,在模拟仿真环境下对不同的行驶环境和任务进行算法验证。结果表明,该模型可以实现鲁棒的端到端无人驾驶决策,且与仅依赖图像特征的方法相比,所提出的方法具有更强的状态感知能力与更准确的决策能力。 Objectives:Existing deep reinforcement learning(DRL)based end-to-end autonomous driving decision-making method is low robustness to noise,which would lead to safety problem.It is difficult to infer the optimal decision accurately by relying solely on the image features when facing with the complex scenes.Methods:An end-to-end decision-making model based on dueling deep Q-network(Dueling DQN)is established to improve the ability of decision evaluation and improve the robustness of the model.It obtains the current state according to the observed data,and outputs discrete quantities for controlling the vehicle(including throttle,steering and brake).The monocular depth feature is extracted accurately in a self-supervised learning manner,and which is combined with the image features for better representation of the current state.Results:The proposed method is tested in a simulation environment.(1)The comparison results with the state-of-the-art A3C model show that our Dueling DQN-based model is more robustness.(2)The comparison results with the image feature-based model show that combining the image and depth features is more beneficial to improve the decision-making accuracy.Conclusions:Training an agent with Dueling DQN is beneficial to alleviate the security risks caused by making different decision when facing similar scenes.Training an agent together with image features and depth features is beneficial to enhance the agent's ability of environment perception,and improve the decision-making accuracy.

作者卢笑竺一薇阳牡花周炫余王耀南 LU Xiao;ZHU Yiwei;YANG Muhua;ZHOU Xuanyu;WANG Yaonan(College of Engineering and Design,Hunan Normal University,Changsha 410006,China;Key Laboratory of Big Data Research and Application for Basic Education,Hunan Normal University,Changsha 410006,China;National Engineering Laboratory for Robot Visual Perception and Control Technology,Hunan University,Changsha 410002,China)

机构地区湖南师范大学工程与设计学院湖南师范大学基础教育大数据研究与应用重点实验室湖南大学机器人视觉感知与控制技术国家工程实验室

出处《武汉大学学报（信息科学版）》 EI CAS CSCD 北大核心 2021年第12期1862-1871,共10页 Geomatics and Information Science of Wuhan University

基金国家自然科学基金(62007007,61703155) 湖南省自然科学基金(2018JJ3350,2018JJ3352)。

关键词端到端自动驾驶决策竞争深度Q网络图像特征单目深度特征 end-to-end automatic driving decision-making dueling deep Q-learning network image features monocular depth features

分类号 P237 [天文地球—摄影测量与遥感]

引文网络
相关文献

同被引文献21

1樊晓平,李双艳,陈特放.基于新人工势场函数的机器人动态避障规划[J].控制理论与应用,2005,22(5):703-707. 被引量：40
2王涛,江进丰,林佑廷,林秋丰,张文明.基于CarSim软件的闪避障碍物驾驶者模型[J].农业工程学报,2010,26(5):159-163. 被引量：2
3赵卫锋,李清泉,李必军.空间认知导向下利用分层强化学习的最优路径规划[J].武汉大学学报（信息科学版）,2012,37(11):1271-1275. 被引量：6
4杨志成,冯豫韬,张利霞,齐华山,倪景秀.基于神经网络前馈补偿的欠驱动机器人越障控制[J].测控技术,2017,36(11):89-92. 被引量：3
5张新钰,高洪波,赵建辉,周沫.基于深度学习的自动驾驶技术综述[J].清华大学学报（自然科学版）,2018,58(4):438-444. 被引量：110
6陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳.基于经验指导的深度确定性多行动者-评论家算法[J].计算机研究与发展,2019,56(8):1708-1720. 被引量：6
7熊璐,杨兴,卓桂荣,冷搏,章仁夑.无人驾驶车辆的运动控制发展现状综述[J].机械工程学报,2020,56(10):127-143. 被引量：131
8岑仕杰,何元烈,陈小聪.结合注意力与无监督深度学习的单目深度估计[J].广东工业大学学报,2020,37(4):35-41. 被引量：9
9张家旭,杨雄,施正堂,赵健,朱冰.汽车紧急换道避障的路径规划与跟踪控制[J].华南理工大学学报（自然科学版）,2020,48(9):86-93. 被引量：8
10陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：22

引证文献3

1张银胜,崔志强,王兴涛,孙佳琪,胡宇翔,单慧琳.基于单目深度估计的智能驾驶路径规划方法[J].国外电子测量技术,2023,42(8):71-79.
2李新凯,虎晓诚,马萍,张宏立.基于改进DDPG的无人驾驶避障跟踪控制[J].华南理工大学学报（自然科学版）,2023,51(11):44-55. 被引量：2
3孟怡悦,郭迟,刘经南.采用注意力机制和奖励塑造的深度强化学习视觉目标导航方法[J].武汉大学学报（信息科学版）,2024,49(7):1100-1108. 被引量：1

二级引证文献3

1何丽,姚佳程,廖雨鑫,张文智,卢赵清,袁亮,肖文东.深度强化学习求解移动机器人端到端导航问题的研究综述[J].计算机工程与应用,2024,60(14):1-13.
2刘德强,刘勇,渠立臣.安防反恐用多监控手段集控动态目标跟踪控制方法[J].中国新技术新产品,2024(12):142-144.
3白冰,董飞,彭文启,刘晓波.基于深度强化学习的水质模型参数率定[J].环境科学学报,2024,44(7):271-280.

1周晓飞.智能网联汽车基础(二)--自动驾驶概述[J].汽车维修与保养,2021(11):81-83. 被引量：3
2张明恒,吕新飞,万星,吴增文.基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型[J].大连理工大学学报,2022,62(1):77-84. 被引量：3
3王福斌,刘贺飞,王蕊,何江红,武晨.烧结断面火焰图像多核Boosting显著性检测[J].计算机辅助设计与图形学学报,2021,33(9):1466-1474. 被引量：3
4高晶英,徐旭,何斯日古楞.具有伪领导者的多智能体系统动态牵制蜂拥控制算法[J].湖北民族大学学报（自然科学版）,2021,39(4):411-417. 被引量：2

武汉大学学报（信息科学版）

2021年第12期

浏览历史

内容加载中请稍等...

联合图像与单目深度特征的强化学习端到端自动驾驶决策方法被引量：3

同被引文献21

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

联合图像与单目深度特征的强化学习端到端自动驾驶决策方法 被引量：3

同被引文献21

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

联合图像与单目深度特征的强化学习端到端自动驾驶决策方法被引量：3