基于探索-利用权衡优化的Q学习路径规划被引量：3

Q-learning Path Planning Based on Exploration/Exploitation Tradeoff Optimization

下载PDF

导出

摘要针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划。对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的AεBS(adaptive ε based state)方法,这一改进确定了触发探索和触发利用的情况,避免探索过度和利用过度,能加快找到最优路径。在未知环境下对基于探索-利用权衡优化的Q学习路径规划与经典的Q学习路径规划进行仿真实验比较,结果表明该方法的智能体在未知障碍环境情况下具有快速学习适应的特性,最优路径步数收敛速度更快,能更高效实现路径规划,验证了该方法的可行性和高效性。 Aiming at the path planning problem of mobile agent in unknown environment,a Q-learning path planning based on exploration/exploitation tradeoff optimization is proposed.For the inherent problem of exploration/exploitation tradeoff in reinforcement learning,the εDBE(ε-decreasing based episodes) method of exploring greedy coefficient ε value decreasing smoothly with the number of learning episodes and the AεBS(adaptiveεbased state)method of judging strangeness/familiarity of arriving state and making exploration or exploitation selection according to the state action value in Q table are proposed.This improvement determines the situation of triggering exploration or triggering exploitation,avoids over exploration and over exploitation,and can speed up finding the optimal path.In unknown environment,the Q-learning path planning based on exploration/exploitation tradeoff optimization is compared with the classical Q-learning path planning.The simulation results show that the agent with the proposed method has the characteristics of fast learning and adaptation in the unknown obstacle environment,the optimal path steps converge faster,and can realize the path planning more efficiently.The feasibility and efficiency of the proposed method are verified.

作者彭云建梁进 PENG Yun-jian;LIANG Jin(School of Automation Science and Engineering,South China University of Technology,Guangzhou 510640,China)

机构地区华南理工大学自动化科学与工程学院

出处《计算机技术与发展》 2022年第4期1-7,共7页 Computer Technology and Development

基金国家自然科学基金(61573154)。

关键词强化学习 Q学习探索-利用路径规划未知环境 reinforcement learning Q-learning exploration/exploitation path planning unknown environment

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1宋晓茹,任怡悦,高嵩,陈超波.移动机器人路径规划综述[J].计算机测量与控制,2019,27(4):1-5. 被引量：49
2罗乾又,张华,王姮,解兴哲.改进人工势场法在机器人路径规划中的应用[J].计算机工程与设计,2011,32(4):1411-1413. 被引量：63
3王晓燕,杨乐,张宇,孟帅.基于改进势场蚁群算法的机器人路径规划[J].控制与决策,2018,33(10):1775-1781. 被引量：138
4沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J].机器人,2006,28(5):544-547. 被引量：15
5王建中,尹义龙.基于动态信息模型的LPN路经规划方法[J].计算机工程,2006,32(17):66-68. 被引量：4
6刘志荣,姜树海,袁雯雯,史晨辉.基于深度Q学习的移动机器人路径规划[J].测控技术,2019,38(7):24-28. 被引量：23

二级参考文献89

1魏宁,刘一松.基于栅格模型的移动机器人全局路径规划研究[J].微计算机信息,2008,24(11):229-231. 被引量：15
2张颖,吴成东,原宝龙.机器人路径规划方法综述[J].控制工程,2003,10(z1):152-155. 被引量：66
3刘满禄,张华,胡天链.改进的人工势场法用于移动机器人导航[J].华中科技大学学报（自然科学版）,2008,36(S1):177-180. 被引量：11
4覃柯,孙茂相,孙昌志.动态环境下基于改进人工势场法的机器人运动规划[J].沈阳工业大学学报,2004,26(5):568-571. 被引量：19
5梁轲,陈雄.移动机器人在未知狭窄环境中的路径规划[J].机器人,2005,27(1):52-56. 被引量：11
6于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：63
7孙波,陈卫东,席裕庚.基于粒子群优化算法的移动机器人全局路径规划[J].控制与决策,2005,20(9):1052-1055. 被引量：79
8朱庆保.动态复杂环境下的机器人路径规划蚂蚁预测算法[J].计算机学报,2005,28(11):1898-1906. 被引量：50
9况菲,王耀南.基于混合人工势场-遗传算法的移动机器人路径规划仿真研究[J].系统仿真学报,2006,18(3):774-777. 被引量：43
10张禹,徐红丽,韦茵,封锡盛.基于数字海图的自主水下机器人路径规划研究[J].机器人,2006,28(3):321-325. 被引量：2

共引文献282

1谌海云,陈华胄,刘强.基于改进人工势场法的多无人机三维编队路径规划[J].系统仿真学报,2020,32(3):414-420. 被引量：38
2李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：13
3代婷婷,刘发江,樊丽.基于遗传算法与改进蚁群算法混合法的应用[J].哈尔滨师范大学自然科学学报,2022,38(4):16-20. 被引量：1
4刘耀,毛剑琳.动态环境下基于改进蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):82-87. 被引量：5
5刘耀,毛剑琳.基于自适应变步长蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):76-81. 被引量：5
6韩强,何利力.智能仓储车间中多AGV路径优化算法研究[J].智能计算机与应用,2022,12(5):43-49. 被引量：2
7高双,柳春平,张瞳,陈坤.可行状态包络下欠驱动水面船全时可跟踪轨迹规划方法[J].船舶工程,2022,44(S01):459-466.
8赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
9王芳,万磊,徐玉如,张玉奎.基于改进人工势场的水下机器人路径规划[J].华中科技大学学报（自然科学版）,2011,39(S2):184-187. 被引量：15
10王萌,王晓荣,李春贵,张增芳.改进人工势场法的移动机器人路径规划研究[J].计算机工程与设计,2008,29(6):1504-1506. 被引量：35

同被引文献22

1王钦钊,多南讯,吕强,杨奇东.基于强化学习的多智能体合作博弈对抗算法[J].装甲兵学报,2022(5):80-85. 被引量：4
2胡笳,王浩然,冯永威,李欣.基于混合域优化控制的智能网联车辆运动规划模型[J].中国公路学报,2022,35(3):43-54. 被引量：8
3赵久强,冯毅萍,王凯军,李一鸣,易畅,解同辰.FlexiJet柔性上料综合创新实验平台研制[J].实验技术与管理,2020,37(2):86-89. 被引量：5
4肖宏宇,付志强,陈慧勇.面向低速自动驾驶车辆的避障规划研究[J].同济大学学报（自然科学版）,2019,47(S01):164-170. 被引量：3
5温惠英,沈毅贤.适于物流配送车辆导航路径规划的路网阻抗确定方法研究[J].交通科技,2008,18(1):94-97. 被引量：3
6仵国锋,胡捍英,李兆训.一种基于空间功率合成的分布式卫星对抗技术[J].电子信息对抗技术,2009,24(4):54-56. 被引量：3
7刘春阳,谭应清,柳长安,马莹巍.多智能体强化学习在足球机器人中的研究与应用[J].电子学报,2010,38(8):1958-1962. 被引量：19
8刘霞,高岳林.整数二次规划问题的一种新型分支定界算法[J].中北大学学报（自然科学版）,2015,36(4):412-417. 被引量：6
9陆诗远,蒋春山,周园明.分布式功率合成技术在电子战装备中的应用分析[J].中国电子科学研究院学报,2020,15(9):861-865. 被引量：4
10朱江,杜瑞,李建奇,蔡慕尧,许海霞.基于注意力机制的曲轴瓦盖上料机器人视觉定位和检测方法[J].仪器仪表学报,2021,42(5):140-150. 被引量：14

引证文献3

1丁慧琴,曹雏清,徐昌军,李龙.改进Q-learning算法的柔性上料系统研究[J].现代制造工程,2023(4):87-92. 被引量：1
2陈翰,张远媛,何聪,朱城磊,张为.基于多智能体强化学习的目标跟踪辐射方法及设计[J].电子器件,2024,47(2):544-551.
3冯永威,王浩然,胡笳.面向复杂驾驶环境的自动驾驶车辆轨迹规划方法[J].交通科技,2024(5):154-159.

二级引证文献1

1陈岩霞,董军科.橡胶件振动上料的问题及解决措施研究[J].造纸装备及材料,2024,53(7):74-76.

1王博文,孙彦景.基于联盟图博弈的地下空间无人机应急通信网络拓扑控制算法[J].电子与信息学报,2022,44(3):996-1005. 被引量：9
2李杨,于浩淼,郭晨,贾兆岩.无人水下航行器未知环境轮廓构建方法[J].水下无人系统学报,2022,30(2):197-203.
3王艳婷,何正文,和媛媛.随机环境下基于成本经济的项目调度权衡优化研究[J].运筹与管理,2021,30(12):20-27. 被引量：2
4李嫱.大一新生学习适应现状与应对方式的实践研究[J].进展,2022(5):76-78.
5陈沁裕.南通大学大一师范生校园生活的适应过程与变化研究[J].教育进展,2022,12(4):1019-1024.
6王鑫,赵清杰,于重重,张长春,陈涌泉.多节点探测器软着陆的路径规划方法[J].宇航学报,2022,43(3):366-373. 被引量：3
7刘爱卿,壹图(图).成为自己故事中的英雄——医患交流实录[J].中老年保健,2022(2):62-62.
8黎梦漪,沈鸿彬,严丽,王艳丹,黄蓉.新冠疫情下大一新生宿舍人际关系与学校适应的相关研究[J].世纪之星—高中版,2021(6):139-140.
9周亚楠,卢宁.流动儿童学校适应对生活满意度的影响:亲子沟通的中介作用[J].心理学进展,2022,12(4):1354-1365.
10SUO Chao,HE Lile.Dynamic path planning strategy based on improved RRT^(*)algorithm[J].Journal of Measurement Science and Instrumentation,2022,13(2):198-208. 被引量：2

计算机技术与发展

2022年第4期

浏览历史

内容加载中请稍等...

基于探索-利用权衡优化的Q学习路径规划被引量：3

参考文献6

二级参考文献89

共引文献282

同被引文献22

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于探索-利用权衡优化的Q学习路径规划 被引量：3

参考文献6

二级参考文献89

共引文献282

同被引文献22

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于探索-利用权衡优化的Q学习路径规划被引量：3