基于强化学习的无人驾驶车辆行为决策方法研究进展被引量：4

A Review of Research on Decision-Making Method of Autonomous Vehicle Based on Reinforcement Learning

下载PDF

导出

摘要行为决策系统能够综合环境及自车信息,使自动驾驶车辆产生安全合理的驾驶行为,是实现无人驾驶的核心。强化学习算法采用一种自监督学习的方式,使自动驾驶车辆的决策系统在与环境的交互过程中,通过不断改进自身策略自主学习到最优的决策模型,为构建有效的决策系统提供了方向。文中总结了近年来基于强化学习的行为决策方法在提高决策精度、提高决策广度以及应对不确定因素等方面的研究进展。决策精度的提升主要依赖于引入具有强大表征能力的深度学习技术。决策广度的提升得益于能够通过任务分解以缓解维数灾难的分层抽象技术。不确定因素则通过部分可观测马尔科夫决策过程被纳入考量之中以提高行车安全。 The decision-making system can integrate environment and ego vehicle information,so that the autonomous vehicle produces safe and reasonable driving behavior,which is the core technology to realize the autonomous driving.Reinforcement learning algorithm adopts a self-supervised learning method,so that the decision-making system of autonomous vehicles can autonomously learn the optimal decision model through continuous improvement of its strategy during the interaction with the environment,which provides a direction for building an effective decision-making system.This study summarizes the research progress in recent years of the decision-making method based on reinforcement learning in terms of improving decision accuracy,improving decision-making breadth,and dealing with uncertain factors.The improvement of decision-making accuracy mainly depends on the introduction of deep learning algorithm with strong representation ability and the hierarchical abstraction technology that can decompose complex tasks to alleviate the dimension disaster.The uncertainty is considered by partially observable Markov decision process to improve driving safety.

作者张佳鹏李琳朱叶 ZHANG Jiapeng;LI Lin;ZHU Ye(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200000,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《电子科技》 2021年第5期66-71,共6页 Electronic Science and Technology

基金国家自然科学基金(61673277)。

关键词无人驾驶强化学习行为决策自监督学习策略改进决策精度决策广度不确定因素 autonomous driving reinforcement learning decision-making self-monitoring learning strategy improvement decision accuracy decision breadth uncertainty

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1缪冉,李菲菲,陈虬.基于卷积神经网络与多尺度空间编码的场景识别方法[J].电子科技,2020,33(12):54-58. 被引量：21
2程俊华,曾国辉,刘瑾.基于深度学习的复杂背景图像分类方法研究[J].电子科技,2020,33(12):59-66. 被引量：11

二级参考文献5

1周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1729
2何雪英,韩忠义,魏本征.基于深度学习的乳腺癌病理图像自动分类[J].计算机工程与应用,2018,54(12):121-125. 被引量：43
3龙满生,欧阳春娟,刘欢,付青.基于卷积神经网络与迁移学习的油茶病害图像识别[J].农业工程学报,2018,34(18):194-201. 被引量：140
4谢林,李菲菲,陈虬.基于稀疏自动编码机的场景识别算法[J].电子科技,2019,32(1):38-41. 被引量：8
5王鑫,李可,徐明君,宁晨.改进的基于深度学习的遥感图像分类算法[J].计算机应用,2019,39(2):382-387. 被引量：29

共引文献30

1张建明,廖敦明,孙飞.基于全连接卷积神经网络的铸造缩松缩孔缺陷快速预测[J].特种铸造及有色合金,2020,40(8):841-845. 被引量：5
2高竟博,李晔,杜闯.基于深度学习的小龙虾分级算法[J].现代计算机,2020,26(26):40-46. 被引量：2
3吴倩倩,周蕾蕾,赵紫婷,蒋红兵.图像分割在肿瘤放射治疗中的发展与应用[J].中国医疗设备,2020,35(12):33-36. 被引量：1
4宋坤,武志锴,南哲,张明慧,李大东.基于多步电价预测的储能系统调度策略优化方法[J].沈阳工业大学学报,2021,43(5):493-499. 被引量：4
5刘镇毓,宋贵宝,刘铁,强裕功.基于改进滤波器和图像加权局部熵的红外小目标图像处理[J].兵工自动化,2022,41(1):63-67. 被引量：1
6林潮威,李菲菲,陈虬.基于深度卷积特征的场景全局与局部表示方法[J].电子科技,2022,35(4):20-27. 被引量：2
7王国名,郝灿,石俊凯,高超,王博,周维虎,高豆豆.基于深度学习的合作目标靶球检测[J].计测技术,2022,42(3):16-22.
8赵轩,周凡,余汉成.基于改进特征提取及融合模块的YOLOv3模型[J].电子科技,2022,35(7):40-45. 被引量：3
9毕嘉桢,沈拓,张轩雄.基于机器视觉的轨道交通自动测距研究[J].电子科技,2022,35(9):37-43. 被引量：2
10周永长,黄亚宇.基于BP神经网络建立二次润叶工艺参数的预测模型[J].电子科技,2022,35(9):79-86. 被引量：1

同被引文献33

1王姝静.电子商务平台个性化推荐强化学习算法研究[J].中外企业家,2020(9):92-92. 被引量：4
2姚旭,王晓丹,张玉玺,权文.特征选择方法综述[J].控制与决策,2012,27(2):161-166. 被引量：207
3向红艳,刘悦棋,刘秀彩,徐韬.基于反向传播神经网络模型的公交进站换道决策行为分析[J].科学技术与工程,2017,17(26):302-307. 被引量：5
4巴兴强,刘娇娇.基于博弈论的公交进站换道决策行为研究[J].重庆理工大学学报（自然科学）,2019,33(2):111-116. 被引量：4
5郭静秋,方守恩,曲小波,王亦兵,刘洋泽西.基于强化协作博弈方法的双车道混合交通流特性[J].同济大学学报（自然科学版）,2019,47(7):976-983. 被引量：4
6梁伍七,王荣华,刘克礼,李斌.特征选择算法研究综述[J].安徽广播电视大学学报,2019(4):85-91. 被引量：11
7顾亚文.浅谈基础特征工程[J].数字技术与应用,2020,38(2):217-218. 被引量：3
8王金祥,赵树恩,杨其芝,白田雨.基于博弈论组合赋权TOPSIS法的汽车碰撞危险态势评估[J].科学技术与工程,2020,20(8):3315-3322. 被引量：7
9李梦琦,张敬磊.考虑愤怒情绪的驾驶员换道行为博弈分析[J].中国安全科学学报,2020,30(2):165-170. 被引量：7
10唐运军,孙舒畅.机器学习中的特征工程方法[J].汽车实用技术,2020(12):70-72. 被引量：11

引证文献4

1苏灿航,高圣涵,郭建钢,廖飞宇.考虑非机动车影响的公交车进站决策模型研究[J].华东交通大学学报,2022,39(1):82-88. 被引量：1
2陈靖彭.基于深度学习与行为融合的全自动智能无人驾驶控制仿真技术分析[J].电子技术（上海）,2022,51(12):112-114.
3张坤,姚媛,蔡宇.基于改进型遗传算法的强化学习特征选择方法[J].电子技术与软件工程,2022(24):191-195.
4张磊,张继权,李一明,徐英,刘秉祺.基于强化学习的综合能源系统智能体设计[J].电子设计工程,2024,32(12):145-149.

二级引证文献1

1张日民,孟宇光,严加权.非机动车影响下公交站点毗邻区公交车运行特征分析[J].工程技术研究,2023,8(23):218-220.

1凌涛.基于深度强化学习的智能机器人避障决策模型[J].新乡学院学报,2021,38(3):64-67. 被引量：2
2张卫东.基于模糊相容关系的公共卫生应急决策模型设计[J].河北北方学院学报（自然科学版）,2021,37(1):43-48.
3方星辰,崔鹏,王庆领.SC2LE场景下基于QMIX算法的多智能体协同控制[J].指挥信息系统与技术,2021,12(2):21-26. 被引量：1
4周强,姚丽坤,范志瑞,金玮玮,王羽白,许琦.基于功能系统分析技术的航天器结构功能融合设计方法[J].载人航天,2021,27(2):221-226. 被引量：2

电子科技

2021年第5期

浏览历史

内容加载中请稍等...

基于强化学习的无人驾驶车辆行为决策方法研究进展被引量：4

参考文献2

二级参考文献5

共引文献30

同被引文献33

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的无人驾驶车辆行为决策方法研究进展 被引量：4

参考文献2

二级参考文献5

共引文献30

同被引文献33

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的无人驾驶车辆行为决策方法研究进展被引量：4