基于Q学习算法和遗传算法的动态环境路径规划被引量：17

Dynamic Environment Path Planning Based on Q-Learning Algorithm and Genetic Algorithm

下载PDF

导出

摘要针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性. Different from the past with the state-action as the index, a method of establishing Q-value table by discretizing time was introduced. The problem of selecting an action in a certain state was transformed into the problem of choosing an action at a certain time,which achieved the application of Q learning algorithm in dynamic continuous environment. Firstly a genetic algorithm for global path planning was adopted. Then the obstacle was dynamically avoided through Q- learning. The whole system followed a successive “ offline冶 and “ online冶 multi-layer path planning philosophy. Indicated by the experiment results,a path planning system of mobile robot is achieved,and the proposed methods are state- of- the- art.

作者于乃功王琛默凡凡蔡建羡

机构地区北京工业大学信息学部北京工业大学计算智能与智能系统北京重点实验室

出处《北京工业大学学报》 CAS CSCD 北大核心 2017年第7期1009-1016,共8页 Journal of Beijing University of Technology

基金国家自然科学基金资助项目(61573029) 北京市自然科学基金资助项目(4162012) 北京工业大学"智能制造领域大科研推进计划"资助项目

关键词动态环境连续环境路径规划 Q学习算法 dynamicenvironment continuousenvironment path planning Q-learning algorithm

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献8

1朴松昊,洪炳熔.一种动态环境下移动机器人的路径规划方法[J].机器人,2003,25(1):18-21. 被引量：41
2金敏,鲁华祥.一种遗传算法与粒子群优化的多子群分层混合算法[J].控制理论与应用,2013,30(10):1231-1238. 被引量：71
3方敏,李浩.基于状态回溯代价分析的启发式Q学习[J].模式识别与人工智能,2013,26(9):838-844. 被引量：9
4张纯刚,席裕庚.动态未知环境中移动机器人的滚动路径规划[J].机器人,2002,24(1):71-75. 被引量：34
5于莹莹,陈燕,李桃迎.改进的遗传算法求解旅行商问题[J].控制与决策,2014,29(8):1483-1488. 被引量：153
6柳长安,鄢小虎,刘春阳,吴华.基于改进蚁群算法的移动机器人动态路径规划方法[J].电子学报,2011,39(5):1220-1224. 被引量：142
7朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：316
8张国亮.动态环境中移动机器人路径规划研究综述[J].机床与液压,2013,41(1):157-162. 被引量：12

二级参考文献143

1庄晓东,孟庆春,熊建设,殷波,王汉萍.动态环境中基于增强式学习的路径规划方法[J].机器人,2001,23(S1):712-716. 被引量：1
2魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
3戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
4李寿涛,李元春.在未知环境下基于递阶模糊行为的移动机器人控制算法[J].吉林大学学报（工学版）,2005,35(4):391-397. 被引量：4
5朱庆保.动态复杂环境下的机器人路径规划蚂蚁预测算法[J].计算机学报,2005,28(11):1898-1906. 被引量：50
6任子武,伞冶.自适应遗传算法的改进及在系统辨识中应用研究[J].系统仿真学报,2006,18(1):41-43. 被引量：165
7高海昌,冯博琴,朱利b.智能优化算法求解TSP问题[J].控制与决策,2006,21(3):241-247. 被引量：119
8陈华华,郭晔,杜歆,顾伟康.基于改进型遗传算法的动态避障路径规划方法[J].传感技术学报,2006,19(2):520-524. 被引量：11
9彭丹平,林志毅,王江晴.求解TSP的一种改进遗传算法[J].计算机工程与应用,2006,42(13):91-93. 被引量：19
10朱庆保.全局未知环境下多机器人运动蚂蚁导航算法[J].软件学报,2006,17(9):1890-1898. 被引量：33

共引文献756

1刘军,冯硕,任建华.移动机器人路径动态规划有向D~*算法[J].浙江大学学报（工学版）,2020,54(2):291-300. 被引量：23
2闫茹.遗传算法在旅游行程规划系统的应用研究[J].计算机产品与流通,2020,9(7):115-115.
3王宁,韩雨晓,王雅萱,王天海,张漫,李寒.农业机器人全覆盖作业规划研究进展[J].农业机械学报,2022,53(S01):1-19. 被引量：12
4黄鲁,周非同.基于路径优化D^*Lite算法的移动机器人路径规划[J].控制与决策,2020,35(4):877-884. 被引量：21
5梁烨,张鸿洲,李明源.面向视频监控点位部署评估的基于风险熵改进蚁群算法[J].计算机应用研究,2020,37(S01):98-101. 被引量：2
6邵煜恒,李惠芳.基于GIS的地形起伏地区天然气管道路径寻优[J].中国石油和化工标准与质量,2019,39(24):7-8. 被引量：1
7张凡,蔡涛,刘文达,范亚雷.基于改进JPS算法的电站巡检机器人路径规划[J].电子测量技术,2020,43(8):10-16. 被引量：6
8闫利利,严德昆,吴利波.人工免疫算法在机器人路径规划中的应用[J].计算机与数字工程,2007,35(7):18-20. 被引量：1
9王维,王磊,禹建丽.学习控制在机器人路径规划中的应用[J].控制工程,2003,10(z2):193-195.
10崔玉平,于秋则,田金文,刘永才.基于自学习可见图的机器人路径规划[J].华中科技大学学报（自然科学版）,2004,32(S1):137-139.

同被引文献168

1刘耀,毛剑琳.基于自适应变步长蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):76-81. 被引量：3
2王怀江,刘晓平,王刚,韩松.基于改进遗传算法的移动机械臂拣选路径优化[J].北京邮电大学学报,2020(5):34-40. 被引量：18
3戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
4朱庆保.动态复杂环境下的机器人路径规划蚂蚁预测算法[J].计算机学报,2005,28(11):1898-1906. 被引量：50
5赫东锋,孙树栋.一种在线自学习的移动机器人模糊导航方法[J].西安工业大学学报,2007,27(4):325-329. 被引量：2
6李吉功,冯宜伟,郭戈.复杂环境下基于栅格地图的实时路径规划[J].控制工程,2007,14(S3):199-201. 被引量：2
7曹二保,赖明勇,聂凯.带时间窗的车辆路径问题的改进差分进化算法研究[J].系统仿真学报,2009,21(8):2420-2423. 被引量：7
8陈少斌,陈冲.动态环境下移动机器人路径规划的一种新方法[J].福州大学学报（自然科学版）,2009,37(5):701-704. 被引量：1
9宾斌,唐露新.模糊神经网络的应用研究[J].机床与液压,2009,37(11):132-135. 被引量：6
10杜宇上.一种基于模糊逻辑的滚动窗口路径规划方法[J].现代电子技术,2010,33(13):146-148. 被引量：4

引证文献17

1杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：15
2吕扬民,陆康丽,王梓.水质监测无人船路径规划方法研究[J].智能计算机与应用,2019,9(1):14-18. 被引量：9
3方略,何洪军.基于鼠脑海马位置细胞与Q学习面向目标导航[J].生物信息学,2019,17(1):31-38. 被引量：3
4马学森,朱建,谈杰,唐昊,周江涛.多头绒泡菌预处理的改进Q学习算法求解最短路径问题[J].电子测量与仪器学报,2019,31(5):148-157. 被引量：4
5韩仪洒,张莉,谭海燕,薛旭璐,郭瑞鸿,郭倩.改进粒子群算法的移动机器人路径规划[J].西安工程大学学报,2019,33(5):517-523. 被引量：12
6刘静瑞,潘东阳.基于Q学习算法的通信网络监控系统设计[J].信息系统工程,2019,0(10):36-37.
7王猛,李民强,余道洋.基于改进Q学习算法的无人水面艇动态环境路径规划[J].仪表技术,2020(4):17-20. 被引量：3
8张艳,张明路,蒋志宏,吕晓玲.动态环境下移动机器人路径规划的研究[J].合肥工业大学学报（自然科学版）,2020,43(10):1297-1306. 被引量：19
9朱颖,李元鹏,张亚婉,黎伟健.基于改进人工势场法的搬运机器人路径规划[J].电子测量技术,2020,43(17):101-104. 被引量：13
10司国斌,王春霞.农业采摘机械手路径规划——基于云平台和Q学习算法[J].农机化研究,2021,43(10):23-27. 被引量：7

二级引证文献113

1张军,许靖宜,于士坤.基于人工势场法的局部路径规划改进[J].绥化学院学报,2023,43(9):146-151.
2夏重阳,张剑书,吴晓富,靳越.面向抗干扰跳频通信的混合改进DQN决策算法[J].电子测量技术,2023,46(20):50-57.
3段会龙,武炎明,刘金国.改进型A^(*)算法的可重构机器人路径规划研究[J].电子测量技术,2023,46(6):44-50.
4邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：1
5朱云飞,张建博.基于强化学习的多干扰机干扰任务分配方法[J].电声技术,2023,47(2):141-145.
6智超群,鲁旭涛,张丽娜.水质监测机器人集群编队路径规划策略[J].国外电子测量技术,2022,41(5):15-20. 被引量：4
7林伟烜.多径干扰下的物联网链路负载均衡控制算法[J].电子测量技术,2019,42(9):1-5. 被引量：3
8林荣霞.基于强化学习的双足机器人的实时避障位置控制[J].电子测量技术,2019,42(10):33-37. 被引量：8
9裴绪芳,陈学强,吕丽刚,张双义,刘松仪,汪西明.基于随机森林强化学习的干扰智能决策方法研究[J].通信技术,2019,52(9):2118-2124. 被引量：6
10霍秀星,孙鲁青,冯川,付琳,宗梓范,邱凡.小型水域无人清洁船完全遍历路径规划模型研究[J].新型工业化,2019,9(8):92-94.

1韩亮,李成云.免疫网络入侵检测中的r连续位匹配算法研究[J].软件导刊,2012,11(11):60-62. 被引量：2
2张政.SDN在主机虚拟化环境中的应用研究[J].科技创新与应用,2017,7(16):97-98. 被引量：1
3尚珂全,刘浩.虚拟化防护技术在检察等涉密环境中的应用研究[J].通信技术,2017,50(5):1084-1087.
4李超,柴玉梅,高明磊,昝红英.句法分析和深度神经网络在中文问答系统答案抽取中的研究[J].小型微型计算机系统,2017,38(6):1341-1346. 被引量：4
5杨晓娇,叶润,吴必造.RFID中基于EPC G1G2的DTJ-ALOHA防碰撞算法仿真[J].计算机应用与软件,2017,34(6):303-308.

北京工业大学学报

2017年第7期

浏览历史

内容加载中请稍等...

基于Q学习算法和遗传算法的动态环境路径规划被引量：17

参考文献8

二级参考文献143

共引文献756

同被引文献168

引证文献17

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

基于Q学习算法和遗传算法的动态环境路径规划 被引量：17

参考文献8

二级参考文献143

共引文献756

同被引文献168

引证文献17

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

基于Q学习算法和遗传算法的动态环境路径规划被引量：17