改进深度强化学习的室内移动机器人路径规划被引量：15

Path Planning for Indoor Mobile Robot with Improved Deep Reinforcement Learning

下载PDF

导出

摘要为了解决传统深度强化学习在室内未知环境下移动机器人路径规划中存在探索能力差和环境状态空间奖励稀疏的问题,提出了一种基于深度图像信息的改进深度强化学习算法。利用Kinect视觉传感器直接获取的深度图像信息和目标位置信息作为网络的输入,以机器人的线速度和角速度作为下一步动作指令的输出。设计了改进的奖惩函数,提高了算法的奖励值,优化了状态空间,在一定程度上缓解了奖励稀疏的问题。仿真结果表明,改进算法提高了机器人的探索能力,优化了路径轨迹,使机器人有效地避开了障碍物,规划出更短的路径,简单环境下比DQN算法的平均路径长度缩短了21.4%,复杂环境下平均路径长度缩短了11.3%。 An improved deep reinforcement learning algorithm based on deep image information is proposed in order to solve the problem of poor exploration ability and sparse environment state space of traditional deep reinforcement learning in path planning of the mobile robot in unknown indoor environment.The depth image information and target position information directly obtained by the Kinect visual sensor are used as the input of the network.The linear velocity and angular velocity of the robot are used as the output of the next action command.An improved reward and punishment function is designed to increase the reward value of the algorithm.The state space is optimized.To a certain extent,it alleviates the problem of reward sparsity.The simulation results show that the improved algorithm can improve the exploration ability of the robot and optimize the path trajectory.The robot can effectively avoid obstacles and plan a shorter path.Compared with DQN algorithm,the average path length in simple environment is shortened by 21.4%.The average path length in complex environment is reduced by 11.3%.

作者成怡郝密密 CHENG Yi;HAO Mimi(School of Control Science and Engineering,Tiangong University,Tianjin 300387,China)

机构地区天津工业大学控制科学与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2021年第21期256-262,共7页 Computer Engineering and Applications

基金国家自然科学基金(61973234) 天津市自然科学基金(18JCYBJC88400,18JCYBJC88300) 天津市高等学校创新团队培养计划(TD13-5036)。

关键词路径规划深度图像信息 Kinect视觉传感器深度强化学习奖惩函数探索能力 path planning depth image information Kinect visual sensor deep reinforcement learning reward and punishment function exploration ability

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献6

1霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：154
2Lan Jiang,Hongyun Huang,Zuohua Ding.Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):1179-1189. 被引量：21
3桂林,武小悦.部分可观测马尔可夫决策过程算法综述[J].系统工程与电子技术,2008,30(6):1058-1064. 被引量：10
4徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：48
5王珂,卜祥津,李瑞峰,赵立军.景深约束下的深度强化学习机器人路径规划[J].华中科技大学学报（自然科学版）,2018,46(12):77-82. 被引量：20
6罗强,王海宝,崔小劲,何晶昌.改进人工势场法自主移动机器人路径规划[J].控制工程,2019,26(6):1091-1098. 被引量：69

二级参考文献78

1高庆吉,于咏生,胡丹丹.基于改进A*算法的可行性路径搜索及优化[J].中国民航学院学报,2005,23(4):42-45. 被引量：15
2刘义,张宇.基于改进人工势场法的移动机器人局部路径规划的研究[J].现代机械,2006(6):48-49. 被引量：18
3Boutilier C, Dean T, Hank S. Decision theoretic planning: structural assumptions and computational leverage[J]. Journal of Artificial Intelligence Research, 1999, 11 : 1 - 49.
4Astrom K J. Optimal control of Markov decision processes with incomplete state estimation[J]. Journal of Mathematical Analysis and Application, 1965, 10:174 - 205.
5Eagle J. The optimal search for a moving target when the search path is constrained[J]. Operations Research, 1984, 32: 1107- 1115.
6Sondik E J. The optimal control of partially observable Markov processes over the infinite horizon: discounted case[J]. Operations Research, 1978, 26:282 - 304.
7Cassandra A R. A survey of POMDP applications[C]//Proceedings of AAAI Full Symposium on Planning with Partially Observable Markov Decision Processes. 1998, 17- 24.
8White C C. Seherer W T. Solution procedures for parlially observed Markov decision processes [J]. Operations Research. 1989, 37(5): 791-797.
9Smallwood R D. Sondik E J. Optimal control of partially observable processes over the finite horizon[J]. Operations Research. 1973, 21: 1071- 1088.
10Sondik E J. The optimal control of partially observable Markov processes[D]. Department of Electrical Engineering, Stanford University, Stanford, CA, 1971.

共引文献304

1张强,刘晓宇,张南庆,何鸣.基于改进人工势场算法的AUV路径规划[J].中国航海,2021,44(2):134-141. 被引量：6
2韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
3刘军,冯硕,任建华.移动机器人路径动态规划有向D~*算法[J].浙江大学学报（工学版）,2020,54(2):291-300. 被引量：28
4徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
5赵明,郑泽宇,么庆丰,潘怡君,刘智.基于改进人工势场法的移动机器人路径规划方法[J].计算机应用研究,2020,37(S02):66-68. 被引量：32
6高子航.基于5G通信的四足机器人控制系统设计[J].电子技术（上海）,2021,50(5):140-141. 被引量：3
7罗国攀,张国良,徐佳宝.基于SPE-ICM的移动机器人内在动机避障规划[J].电子测量与仪器学报,2023,37(2):21-27. 被引量：3
8李芳娣,邓晓燕,吴伟铭,周依静,陈芯婷.移动机器人复杂角点定位和停车策略研究与实现[J].电子测量技术,2023,46(22):26-31.
9杨敏豪,张国良,李德胜.基于双向F-RRT^(*)算法的移动机器人路径规划[J].电子测量技术,2023,46(5):91-97. 被引量：1
10简雪萍.基于人工智能助力居家智慧养老模式设计研究[J].智能计算机与应用,2020,10(1):304-306. 被引量：13

同被引文献195

1张纪,胡唤,张桂勇,张之凡.基于深度强化学习的地效翼船降落纵向控制研究[J].中国造船,2023,64(1):215-223. 被引量：1
2蔺一帅,李青山,陆鹏浩,孙雨楠,王亮,王颖芝.智能仓储货位规划与AGV路径规划协同优化算法[J].软件学报,2020,31(9):2770-2784. 被引量：29
3王阳,李振东,杨观赐.基于深度学习的OCR文字识别在银行业的应用研究[J].计算机应用研究,2020,37(S02):375-379. 被引量：22
4李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：15
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：8
6闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
7邹湘军,罗锡文,卢俊,罗陆锋,李宗樑,莫雪生,范蕾.虚拟环境下农业移动机器人行为及其仿真建模[J].系统仿真学报,2006,18(z2):551-553. 被引量：23
8任春明,张建勋.基于优化蚁群算法的机器人路径规划[J].计算机工程,2008,34(15):1-3. 被引量：37
9常友渠,肖贵元,曾敏.贪心算法的探讨与研究[J].重庆电力高等专科学校学报,2008,13(3):40-42. 被引量：37
10朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：334

引证文献15

1孟晨阳,郝崇清,李冉,王晓博,王昭雷,赵江.基于改进DDPG算法的复杂环境下AGV路径规划方法研究[J].计算机应用研究,2022,39(3):681-687. 被引量：11
2刘双双,黄宜庆.多策略蚁群算法在机器人路径规划中的应用[J].计算机工程与应用,2022,58(6):278-286. 被引量：20
3谢文显,孙文磊,刘国良,徐洋洋.基于强化学习的机器人智能路径规划[J].组合机床与自动化加工技术,2022(7):13-17. 被引量：8
4颜伟,孙佳旭,崔若梁.仓库拣选路径问题研究综述[J].科学技术与工程,2022,22(32):14081-14089.
5周婷.基于信息融合的移动机器人全局避障路径规划算法[J].宁夏师范学院学报,2022,43(10):59-66. 被引量：3
6贾鹤鸣,李永超,游进华,李政邦,饶洪华,文昌盛.改进沙猫群优化算法的机器人路径规划[J].福建工程学院学报,2023,21(1):72-77. 被引量：4
7丁玲.基于神经网络深度强化学习的分拣机器人避障规划技术[J].工业仪表与自动化装置,2023(2):46-50. 被引量：2
8余久方,尧海昌.基于改进融合深度强化学习的机器人路径规划[J].组合机床与自动化加工技术,2023(5):19-22. 被引量：3
9林俊强,王红军,邹湘军,张坡,李承恩,周益鹏,姚书杰.基于DPPO的移动采摘机器人避障路径规划及仿真[J].系统仿真学报,2023,35(8):1692-1704. 被引量：8
10何玮,周雨湉,俞阳,康雨萌,朱萌,钱旭盛.蜣螂优化算法下“互联网+营销服务”虚拟机器人应用模型[J].西安工程大学学报,2024,38(1):113-120. 被引量：1

二级引证文献65

1赵倩楠,黄宜庆.融合A^(*)蚁群和动态窗口法的机器人路径规划[J].电子测量与仪器学报,2023,37(2):28-38. 被引量：17
2朱胜涛,戴娟,刘海涛,李剑锋.Bezier曲线与A-Star算法融合的火星探测器路径规划[J].电子测量技术,2023,46(19):69-75. 被引量：1
3李韧,詹明,范晶晶.基于DDPG算法的智能汽车路径规划系统性文献综述[J].汽车知识,2022,22(2):7-10.
4杨北辰,余粟.改进蚁群算法在路径规划中的应用[J].计算机应用研究,2022,39(11):3292-3297. 被引量：19
5阚亚雄,赵飞.基于深度确定性策略梯度算法的四旋翼控制器自主导航方法研究[J].机电工程技术,2022,51(10):149-152.
6杨友波,张目,唐俊,雷印杰.基于深度确定性策略梯度强化学习算法的航迹规划研究[J].现代计算机,2023,29(5):1-7. 被引量：1
7洪昭斌,杨海杰,陈水宣,袁和平.一种改进的移动机器人路径规划A*算法[J].厦门理工学院学报,2023,31(1):49-56.
8张佩,游晓明,刘升.融合动态层次聚类和邻域区间重组的蚁群算法[J].计算机应用研究,2023,40(6):1666-1673. 被引量：3
9徐万福,孙渊.基于多步长蚁群算法的移动机器人路径规划[J].组合机床与自动化加工技术,2023(6):18-21. 被引量：3
10郭启敏,张鹏,王应洋,王石.无人机自主航迹规划智能算法综述[J].航空兵器,2023,30(3):29-40. 被引量：11

1聂明炎,杨诚.一种LiDAR平面配准方法辅助的IMU室内定位算法[J].测绘地理信息,2021,46(5):27-30. 被引量：2
2肖炯恩,杨帆妮.基于复杂网络的粤港澳大湾区学术合作及影响因素分析[J].未来与发展,2021,45(10):9-19.
3李本建,林华,高天源.将革新进行到底突破最后一公里--宜昌市狠抓失业保险稳岗返还政策落实[J].中国就业,2021(10):18-19.
4徐建闽,席嘉鹏.基于Q-强化学习的干道交叉口信号配时模型[J].广西大学学报（自然科学版）,2021,46(4):1036-1044. 被引量：2
5王梦雪,刘妙华,潘源乐,魏思逸,刘端勇,黄小英,赵海梅.香参丸对结肠炎小鼠结肠黏膜TLR/NF-κB信号的调控作用[J].中国实验方剂学杂志,2021,27(20):1-6. 被引量：3
6杨梓涵,郝小玲,王虹,叶柳,黄润,孟江萍.弱精症精子SOD2和PRDX6的表达变化及其与精子运动能力的相关性分析[J].第三军医大学学报,2021,43(20):2199-2207. 被引量：5
7姚启伦,方平.玉米矮秆突变体Hii-015的鉴定及主要性状配合力分析[J].玉米科学,2021,29(5):28-34.

计算机工程与应用

2021年第21期

浏览历史

内容加载中请稍等...

改进深度强化学习的室内移动机器人路径规划被引量：15

参考文献6

二级参考文献78

共引文献304

同被引文献195

引证文献15

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

改进深度强化学习的室内移动机器人路径规划 被引量：15

参考文献6

二级参考文献78

共引文献304

同被引文献195

引证文献15

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

改进深度强化学习的室内移动机器人路径规划被引量：15