改进深度确定性策略梯度的决策算法研究被引量：1

Research on Improved Decision Algorithm of Deep Deterministic Policy Gradient

下载PDF

导出

摘要为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深度确定性策略梯度算法随机探索的盲目性,提高智能车学习效率。然后在回合间基于奖励筛选优秀轨迹,便于指导智能车对复杂空间的探索,得到稳定的控制策略。最后,在开源智能驾驶仿真环境进行仿真。实验结果表明改进后的深度确定性策略梯度算法性能优于原来的算法,训练效率和收敛稳定性均得到有效提升。 In order to solve the problem of decision-making control in the process of unmanned path planning,in view of the deep deterministic policy gradient algorithm,there are defects such as low training efficiency and unstable convergence,with the increase of search space in unknown environments.An improved algorithm based on reward guidance is proposed.Firstly,prioritized experience replay based on reward is adopted in each round to reduce the blindness of random exploration of the deep deterministic policy gradient algorithm and improve the learning efficiency of the intelligent vehicle.Then,the excellent trajectory is selected based on reward between rounds to guide the intelligent vehicle to explore complex space and obtain a stable control strategy.Finally,the simulation is carried out in the open-source intelligent driving simulation environment.The experimental results show that the performance of the improved deep deterministic policy gradient algorithm is better than the original algorithm,and the training efficiency and convergence stability are effectively improved.

作者陈建文张小俊张明路 CHEN Jianwen;ZHANG Xiaojun;ZHANG Minglu(School of Mechanical Engineering,Hebei University of Technology,Tianjin 300400)

机构地区河北工业大学机械工程学院

出处《汽车实用技术》 2022年第1期28-31,共4页 Automobile Applied Technology

关键词路径规划决策控制深度确定性策略梯度奖励指导优先经验回放 Path planning Decision control Deep deterministic policy gradient Reward guidance Prioritized experience replay

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：480

二级参考文献8

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：624
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：612
6傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
7黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
8杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：29

共引文献479

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：46
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.

同被引文献9

1张义,郭坤.基于DDPG算法的路径规划研究[J].电脑知识与技术,2021,17(4):193-194. 被引量：1
2武曲,张义,郭坤,王玺.结合LSTM的强化学习动态环境路径规划算法[J].小型微型计算机系统,2021,42(2):334-339. 被引量：15
3张珂,刘畅,兰鹏宇.基于改进人工势场法的局部路径规划[J].汽车文摘,2021(7):59-62. 被引量：8
4周盛世,单梁,常路,陈佳,刘成林,李军.基于改进DDPG算法的机器人路径规划算法研究[J].南京理工大学学报,2021,45(3):265-270. 被引量：15
5张宁,葛斌.改进的DDPG算法在机器人路径规划中的应用[J].佳木斯大学学报（自然科学版）,2021,39(5):119-122. 被引量：2
6赵港.改进RRT^(*)算法的智能车辆路径规划[J].汽车实用技术,2021,46(22):41-43. 被引量：4
7张瀚,解明扬,张民,伍乃骐.融合DDPG算法的移动机器人路径规划研究[J].控制工程,2021,28(11):2136-2142. 被引量：9
8高涛.基于A^(*)算法的无人车路径规划[J].江苏工程职业技术学院学报,2021,21(4):11-15. 被引量：5
9孟晨阳,郝崇清,李冉,王晓博,王昭雷,赵江.基于改进DDPG算法的复杂环境下AGV路径规划方法研究[J].计算机应用研究,2022,39(3):681-687. 被引量：9

引证文献1

1李韧,詹明,范晶晶.基于DDPG算法的智能汽车路径规划系统性文献综述[J].汽车知识,2022,22(2):7-10.

1刘景森,吉宏远,李煜.基于改进蝙蝠算法和三次样条插值的机器人路径规划[J].自动化学报,2021,47(7):1710-1719. 被引量：20
2马嘉华,孙兴华,夏文超,王玺钧,谭洪舟,朱洪波.基于标签量信息的联邦学习节点选择算法[J].物联网学报,2021,5(4):46-53. 被引量：4
3李珊,任安虎,白静静.基于DQN算法的倒计时交叉口信号灯配时研究[J].国外电子测量技术,2021,40(10):91-97. 被引量：3
4张建霞,曲国庆,席换,王晖.距离观测方程非线性平差的正则化共轭梯度法[J].山东理工大学学报（自然科学版）,2022,36(2):42-46.

汽车实用技术

2022年第1期

浏览历史

内容加载中请稍等...

改进深度确定性策略梯度的决策算法研究被引量：1

参考文献1

二级参考文献8

共引文献479

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

改进深度确定性策略梯度的决策算法研究 被引量：1

参考文献1

二级参考文献8

共引文献479

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

改进深度确定性策略梯度的决策算法研究被引量：1