基于分层深度强化学习的移动机器人导航方法被引量：7

Navigation method for mobile robot based on hierarchical deep reinforcement learning

导出

摘要针对现有基于深度强化学习(deep reinforcement learning,DRL)的分层导航方法在包含长廊、死角等结构的复杂环境下导航效果不佳的问题,提出一种基于option-based分层深度强化学习(hierarchical deep reinforcement learning,HDRL)的移动机器人导航方法.该方法的模型框架分为高层和低层两部分,其中低层的避障和目标驱动控制模型分别实现避障和目标接近两种行为策略,高层的行为选择模型可自动学习稳定、可靠的行为选择策略,从而有效避免对人为设计调控规则的依赖.此外,所提出方法通过对避障控制模型进行优化训练,使学习到的避障策略更加适用于复杂环境下的导航任务.在与现有DRL方法的对比实验中,所提出方法在全部仿真测试环境中均取得最高的导航成功率,同时在其他指标上也具有整体优势,表明所提出方法可有效解决复杂环境下导航效果不佳的问题,且具有较强的泛化能力.此外,真实环境下的测试进一步验证了所提出方法的潜在应用价值. In order to solve the problem that existing hierarchical navigation methods based on deep reinforcement learning(DRL)perform poorly in complex environments including the structures like long corridors and dead corners,we propose a navigation method for mobile robots based on option-based hierarchical deep reinforcement learning(HDRL).The framework of the proposed method consists of two level control models:a low level model is to obtain policies for avoiding obstacles and reaching the goal respectively,and a high-level behavior selection model is for automatically learning stable and reliable behavior selection policy,which does not rely on manually designed control rules.In addition,a training method for optimizing the obstacle avoidance control model is proposed,which makes the learned obstacle avoidance policy more suitable for the navigation task in complex environments.In comparison with existing DRL-based navigation methods,the proposed method achieves the highest navigation success rate in all simulated test environments used in this paper and shows better overall performance on other metrics,which demonstrates the proposed method can effectively solve the problem of poor navigation performance in complex environments and has strong generalization ability.Moreover,experiments in real-world environment also verify the potential application value of the proposed method.

作者王童李骜宋海荦刘伟王明会 WANG Tong;LI Ao;SONG Hai-luo;LIU Wei;WANG Ming-hui(School of Information Science and Technology,University of Science and Technology of China,Hefei 230027,China)

机构地区中国科学技术大学信息科学技术学院

出处《控制与决策》 EI CSCD 北大核心 2022年第11期2799-2807,共9页 Control and Decision

基金中国科学技术大学优秀引进人才基金项目(KY2100000021) 国家自然科学基金项目(61971393,61871361)。

关键词深度强化学习分层深度强化学习移动机器人导航避障策略学习 deep reinforcement learning hierarchical deep reinforcement learning mobile robot navigation obstacle avoidance policy learning

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献6

1孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：28
2刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：123
3周文吉,俞扬.分层强化学习综述[J].智能系统学报,2017,12(5):590-594. 被引量：20
4陈春林,陈宗海,卓睿,周光明.基于分层式强化学习的移动机器人导航控制[J].南京航空航天大学学报,2006,38(1):70-75. 被引量：2
5杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究——理论与实验[J].智能系统学报,2020,15(5):888-899. 被引量：16
6董豪,杨静,李少波,王军,段仲静.基于深度强化学习的机器人运动控制研究进展[J].控制与决策,2022,37(2):278-292. 被引量：35

二级参考文献35

1Althaus P,Christensen H I.Smooth task switching through behaviour competition[J].Robotics and Autonomous Systems,2003,44(3/4):241-249.
2Beom H R,Cho H S.A sensor-based navigation for a mobile robot using fuzzy logic and reinforcement learning[J].IEEE Trans on Systems,Man and Cybernetics,1995,25(3):464-477.
3Ranganathan P,Hayet J B,Devy M,et al.Topological navigation and qualitative localization for indoor environment using multi-sensory perception[J].Robotics and Autonomous Systems,2002,41:137-144.
4Sutton R S,Barto A G.Reinforcement learning:an introduction[M].Cambridge,MA:MIT Press,1998:3-9.
5Ye C,Yung N H C,Wang D W.A fuzzy controller with supervised learning assisted reinforcement learning algorithm for obstacle avoidance[J].IEEE Transactions on Systems,Man and Cybernetics,2003,33(1):17-27.
6Kondo T,Ito K.A reinforcement learning with evolutionary state recruitment strategy for autonomous mobile robots control[J].Robotics and Autonomous Systems,2004,46(2):111-124.
7Barto A G,Mahanevan S.Recent advances in hierarchical reinforcement learning[J].Discrete Event Dynamic Systems:Theory and Applications,2003,13(4):41-77.
8Sutton R,Precup D,Singh S.Between MDPs and semi-MDPs:a framework for temporal abstraction in reinforcement learning[J].Artificial Intelligence,1999,112(1/2):181-211.
9Dietterich T G.Hierarchical reinforcement learning with the MAXQ value function decomposition[J].Journal of Artificial Intelligence Research,2000,13(1):227-303.
10Thrun S.Learning metric-topological maps for indoor mobile robot navigation[J].Artificial Intelligence,1998,99(1):21-71.

共引文献207

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3常芳芳,陈祺航,刘云龙.局部可观测环境下未来信息辅助的无模型深度强化学习[J].南京大学学报（自然科学版）,2022,58(5):796-804.
4刘峰波,党飞飞,杨满囤,马平,赵俊达.井下防淤积清仓机器人行走机构纠偏控制研究[J].煤炭工程,2022,54(S01):195-199.
5席磊,余璐,张弦,胡伟.基于深度强化学习的泛在电力物联网综合能源系统的自动发电控制[J].中国科学：技术科学,2020,50(2):221-234. 被引量：19
6平洋,刘文斌,缪正元,葛品,黄琮凯,庄正浩.智能无人艇研究现状及关键问题发展趋势[J].船舶工程,2023,45(2):61-69. 被引量：1
7马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93.
8闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
9刘俊红.3中药汤剂对胃溃疡治疗机理的探讨[J].河南中医,2000,20(3):28-28. 被引量：3
10孙建,陈宗海,王鹏,张启彬,包鹏.基于代价地图和最小树的移动机器人多区域覆盖方法[J].机器人,2015,37(4):435-442. 被引量：5

同被引文献58

1王彤,李磊,蒋琪.“进攻性蜂群使能战术”项目推进无人蜂群能力发展分析[J].战术导弹技术,2020(1):33-38. 被引量：20
2姜龙亭,魏瑞轩,张启瑞,王栋.基于群智机理的集群防碰撞控制[J].航空学报,2020(S02):161-170. 被引量：10
3徐卫军.深度学习在计算机视觉领域中的应用[J].电子技术（上海）,2021,50(5):20-21. 被引量：4
4王永富,柴天佑.自适应模糊控制理论的研究综述[J].控制工程,2006,13(3):193-198. 被引量：76
5刘洪,李吉峰,葛少云,张鹏,陈星屹.基于多主体博弈与强化学习的并网型综合能源微网协调调度[J].电力系统自动化,2019,43(1):40-48. 被引量：57
6王红卫,刘典,赵鹏,祁超,陈曦.不确定层次任务网络规划研究综述[J].自动化学报,2016,42(5):655-667. 被引量：7
7魏瑞轩,许卓凡,张启瑞,何仁柯.无人机自主防碰撞控制技术新进展[J].科技导报,2017,35(7):64-68. 被引量：5
8朱晓军,朱建华,朱振旗,甘中学.分布式能源网络系统的探索与实践[J].科学通报,2017,62(32):3672-3682. 被引量：7
9吕太之,周武,赵春霞.采用粒子群优化和B样条曲线的改进可视图路径规划算法[J].华侨大学学报（自然科学版）,2018,39(1):103-108. 被引量：23
10刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：444

引证文献7

1王欢,周旭,邓亦敏,刘小峰.分层决策多机空战对抗方法[J].中国科学：信息科学,2022,52(12):2225-2238. 被引量：3
2查荣瑞,马云华,燕翔,郑霜.基于场景理解与改进型BUG算法的移动机器人避障[J].计算机测量与控制,2023,31(3):228-234. 被引量：2
3杨秀霞,王晨蕾,张毅,于浩,姜子劼.基于增量式发育深度强化学习的无人机路径规划[J].飞行力学,2023,41(3):40-46. 被引量：2
4郎宾超.多航道下船舶最佳导航路线选择方法[J].舰船科学技术,2023,45(11):151-154.
5张时进.基于深度强化学习的红外单目摄像头移动机器人避障方法[J].信息与电脑,2023,35(11):195-197.
6王磊,胡国,吴海,谭阔,周成,朱亚军.基于分层深度强化学习的分布式能源系统多能协同优化方法[J].电力系统自动化,2024,48(1):67-76.
7邵天浩,程恺,张宏军,张可.抽象技术及其在蒙特卡洛树搜索中的应用研究综述[J].控制与决策,2024,39(4):1075-1094.

二级引证文献7

1蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
2付宇鹏,邓向阳,朱子强,张立民.基于价值滤波的空战机动决策优化方法[J].航空学报,2023,44(22):14-27.
3寇云凯,林浩意,苏芃桥,黄韦,徐书涵.一种用于机场候机楼智能指引的轮式机器人系统设计[J].科技风,2023(35):1-4.
4李耀宇,金帅,马满好,任伟.无人空战指控建模仿真方法研究[J].指挥控制与仿真,2024,46(1):85-92.
5赵学健,叶昊,贾伟,孙知信.AGV路径规划及避障算法研究综述[J].小型微型计算机系统,2024,45(3):529-541. 被引量：1
6吴峰.智能化无人机测绘路径规划与动态避障算法研究[J].信息与电脑,2023,35(23):66-68.
7欧洋,郭正玉,罗德林,缪克华.基于图卷积深度强化学习的协同空战机动决策方法[J].工程科学学报,2024,46(7):1227-1236.

1沈晓东.精心设计问题链,让策略学习不断进阶——“解决问题的策略——画图”教学实践与思考[J].小学数学教育,2022(10):49-51.
2李闻一,万秦娟.费用报销中的诚信行为研究--基于行为博弈理论[J].会计之友,2022(3):149-154.
3徐国艳,熊绎维,周彬,陈冠宏.基于PPO的移动平台自主导航[J].北京航空航天大学学报,2022,48(11):2138-2145. 被引量：2
4彭息强,田喜洲,彭小平,姜梦媛,焦青松.莫道桑榆晚:老龄员工职场成功的前因、后果及实现策略[J].外国经济与管理,2022,44(8):90-105. 被引量：10
5杨正才,景辉,李珂.基于共识行为迁移算法的智能车紧急避障策略研究[J].汽车零部件,2022(S02):33-40.
6姚玉会,姚玉林.实施个体化康复护理干预在阿尔茨海默症患者中的效果研究[J].益寿宝典,2022(34):101-103.
7李宁.适配理论视角下社会组织介入乡村振兴的行为策略研究--以福建省永泰县“永泰基金会”为例[J].学会,2022(10):28-34.
8赵玉春,王明军,程思聪,杜清运.CorelDRAW矢量地图高保真Web发布方法研究[J].测绘地理信息,2022,47(S01):54-57.
9张朝,张欣欣.政府和钢铁企业间行为策略的演化博弈分析——有机朗肯循环技术推广[J].东北大学学报（自然科学版）,2022,43(11):1653-1661.
10黄万伟,郑向雨,张超钦,王苏南,张校辉.基于深度强化学习的智能路由技术研究[J].郑州大学学报（工学版）,2023,44(1):44-51. 被引量：2

控制与决策

2022年第11期

浏览历史

内容加载中请稍等...

基于分层深度强化学习的移动机器人导航方法被引量：7

参考文献6

二级参考文献35

共引文献207

同被引文献58

引证文献7

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于分层深度强化学习的移动机器人导航方法 被引量：7

参考文献6

二级参考文献35

共引文献207

同被引文献58

引证文献7

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于分层深度强化学习的移动机器人导航方法被引量：7