结合LSTM的强化学习动态环境路径规划算法被引量：15

LSTM Combined with Reinforcement Learning Dynamic Environment Path Planning Algorithm

下载PDF

导出

摘要在路径规划领域已经涌现出了诸多的优秀的经典算法,但这些传统方法往往基于静态环境,对于动态可变环境缺乏处理能力.本文提出一种结合LSTM强化学习动态环境路径规划算法.首先,本文以环境图像作为输入,最大限度了保证了原始的信息来源.而后构建了自动编码器用来对环境图像进行特征降维,降低了整体模型的复杂程度.最后采用深度强化学习算法DDPG进行路径规划,其中Actor部分采用LSTM的网络构建,使Actor在决策时可以参考前序信息,做到有预测的避开动态障碍.最后通过实验证明了本文算法的可行性和高效性. Many excellent classical algorithms have emerged in the field of path planning,but these traditional methods are often based on static environment and lack processing power for dynamic variable environment.This paper proposes a path planning algorithm for dynamic environment based on LSTM reinforcement learning.First of all,this paper takes the environment image as the input to ensure the original information source to the maximum extent.Then an Autoencoder is built to reduce the dimension of environment image,which reduces the complexity of the whole model.At last,the deep reinforcement learning algorithm DDPG is used for path planning,and the Actor part uses LSTM network,so that the Actor can refer to the prior information and make decisions with the prediction of environment change.Finally,the feasibility and efficiency of the proposed algorithm are proved by experiments.

作者武曲张义郭坤王玺 WU Qu;ZHANG Yi;GUO Kun;WANG Xi(School of Information and Control Engineering,Qingdao University of Technology,Qingdao 266520,China)

机构地区青岛理工大学信息与控制工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2021年第2期334-339,共6页 Journal of Chinese Computer Systems

基金山东省自然科学基金项目(ZR2017BF043)资助.

关键词自动编码器 LSTM DDPG 强化学习动态路径规划 autoencoder LSTM DDPG reinforcement learning dynamic path planning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献113

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
2李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：13
3多杰才让,范忠雄,南杰措.基于改进Dijkstra的旅游路径优化问题的研究——以青海4A旅游景区为例[J].广西质量监督导报,2021(2):103-104. 被引量：3
4程玉虎,易建强,王雪松,赵冬斌.一类连续状态与动作空间下的加权Q学习[J].电机与控制学报,2005,9(6):570-574. 被引量：1
5宋金泽,戴斌,单恩忠,贺汉根.一种改进的RRT路径规划算法[J].电子学报,2010,38(B02):225-228. 被引量：61
6朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：328
7陈虹宇.单链路故障的一种1+N保护策略[J].四川兵工学报,2013,34(9):119-121. 被引量：1
8霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：148
9蒋莎,刘学文,叶家君.基于蚁群算法的无人机任务规划优化模型研究[J].重庆师范大学学报（自然科学版）,2019,36(1):1-7. 被引量：8
10张朝昆,崔勇,唐翯翯,吴建平.软件定义网络(SDN)研究进展[J].软件学报,2015,26(1):62-81. 被引量：437

引证文献15

1张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：24
2杨雅宁.基于强化学习的中小型无人机动态航线规划算法研究[J].宁夏师范学院学报,2021,42(10):107-112. 被引量：2
3何富君,王晓争,刘凯.基于LSTM与非对称网络的改进DDPG算法研究[J].计算机应用研究,2022,39(1):183-187. 被引量：4
4杨周,刘海滨.基于改进蚁群与动态窗口法的AGV动态路径规划[J].计算机工程与应用,2022,58(6):287-295. 被引量：18
5王炜发,张大明,代毅,柯峰,冯穗力.采用Q学习的软件定义网络抗毁技术分析[J].华南理工大学学报（自然科学版）,2022,50(4):65-72. 被引量：3
6李韧,詹明,范晶晶.基于DDPG算法的智能汽车路径规划系统性文献综述[J].汽车知识,2022,22(2):7-10.
7罗洁,王中训,潘康路,卢中原,刘言.基于改进人工势场法的无人车路径规划算法[J].电子设计工程,2022,30(17):90-94. 被引量：13
8鲁嘉俊,杨波,徐婷.一种基于强化学习的绞吸挖泥船施工参数智能自主寻优方法研究[J].中国港湾建设,2022,42(8):71-75. 被引量：2
9袁帅,张莉莉,顾琦然,张凤,吕佳琪.移动机器人优先采样D3QN路径规划方法研究[J].小型微型计算机系统,2023,44(5):923-929. 被引量：4
10张凤,顾琦然,袁帅.好奇心蒸馏双Q网络移动机器人路径规划方法[J].计算机工程与应用,2023,59(19):316-322.

二级引证文献70

1马随阳,余永周,吕英豪.动态规划算法对航道岸线中无人机测绘路径的优化[J].中国水运（下半月）,2022,22(10):76-78. 被引量：1
2张军,许靖宜,于士坤.基于人工势场法的局部路径规划改进[J].绥化学院学报,2023,43(9):146-151.
3赵倩楠,黄宜庆.融合A^(*)蚁群和动态窗口法的机器人路径规划[J].电子测量与仪器学报,2023,37(2):28-38. 被引量：14
4何世鹏,金世俊.结合蚁群算法和萤火虫算法的无人船路径规划[J].电子测量技术,2023,46(19):82-86. 被引量：1
5邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：3
6段洁利,王昭锐,叶磊,杨洲.水果采摘机械臂运动规划研究进展与发展趋势[J].智能化农业装备学报（中英文）,2021,2(2):7-17. 被引量：7
7贺雪梅,匡胤,杨志鹏,杨亚乔.基于深度强化学习的AGV智能导航系统设计[J].计算机应用研究,2022,39(5):1501-1504. 被引量：8
8赵国庆,徐君明,刘爱东.降低方差的深度确定性策略梯度算法[J].兵工自动化,2022,41(6):41-46. 被引量：2
9黄罗毅,马万经,王玲.智能网联交通环境下基于Q学习的路径规划[J].交通与运输,2022,38(4):63-67. 被引量：1
10畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：2

1施群,吕雷,谢家骏.可变环境下仿人机器人智能姿态控制[J].机械工程学报,2020,56(3):64-72. 被引量：7
2石杰锋,吴金华.基于POI数据的城市“三生空间”划定方法研究——以西安市城区中心部分为例[J].国土资源信息化,2021(1):23-29. 被引量：12
3郭业才,张浩然.基于改进LDA和自编码器的调制识别算法[J].系统仿真学报,2021,33(2):494-500. 被引量：3
4杜婉茹,王潇茵,田涛,张越.面向未知环境及动态障碍的人工势场路径规划算法[J].计算机科学,2021,48(2):250-256. 被引量：12
5冯晓硕,沈樾,王冬琦.基于图像的数据增强方法发展现状综述[J].计算机科学与应用,2021,11(2):370-382. 被引量：18
6秦智慧,李宁,刘晓彤,刘秀磊,佟强,刘旭红.无模型强化学习研究综述[J].计算机科学,2021,48(3):180-187. 被引量：28
7邵可南,吕成瑶,张帅帅,宫婧.一种基于冷链低碳物流路径的混合优化算法[J].计算机技术与发展,2021,31(2):27-32. 被引量：7
8马一凡,赵凡宇,王鑫,金仲和.基于改进指针网络的卫星对地观测任务规划方法[J].浙江大学学报（工学版）,2021,55(2):395-401. 被引量：2
9杨俊宴.城市脉搏:基于多源大数据的城市动态结构研究[J].规划师,2020,36(21):64-71. 被引量：10
10鲁建厦,翟文倩,李嘉丰,易文超,汤洪涛.基于改进混合蛙跳算法的多约束车辆路径优化[J].浙江大学学报（工学版）,2021,55(2):259-270. 被引量：15

小型微型计算机系统

2021年第2期

浏览历史

内容加载中请稍等...

结合LSTM的强化学习动态环境路径规划算法被引量：15

同被引文献113

引证文献15

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

结合LSTM的强化学习动态环境路径规划算法 被引量：15

同被引文献113

引证文献15

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

结合LSTM的强化学习动态环境路径规划算法被引量：15