一类用于井下路径规划问题的Dyna_Q学习算法被引量：2

A Dyna_Q-learning Algorithm Used in Underground Path Planning

下载PDF

导出

摘要在基于目标的强化学习任务中,欧氏距离常用于Dyna_Q学习的启发式规划中,但对于井下救援机器人路径规划这类状态空间在欧氏空间内不连续的任务效果不理想。针对该问题,文章引入流形学习中计算复杂度较低的拉普拉斯特征映射法,提出了一种基于流形距离度量的改进Dyna_Q学习算法,并在类似于井下环境的格子世界中进行了仿真研究。仿真结果验证了该算法的有效性。 The Euclidean distance is usually used in heuristic planning of Dyna_Q-learning based on reinforcement learning tasks of goal position. But it is not suitable for these tasks whose state space is not continuous in Euclidean space such as path planning of disaster rescue robot in underground coal mine. For the problem, the paper introduced the Laplacian Eigenmap whose computational complexity is lower in manifold learning, then proposed an improved Dyna_ Q-learning algorithm based on manifold distance metric. The proposed algorithm is simulated in grid world that is similar to underground environment. The simulation results verified validity of the algorithm.

作者朱美强李明张倩

机构地区中国矿业大学信电学院

出处《工矿自动化》北大核心 2012年第12期71-76,共6页 Journal Of Mine Automation

基金国家自然科学基金资助项目(61273143) 中国矿业大学青年科技基金项目(OC080252)

关键词 Dyna_Q学习欧氏距离启发式规划路径规划拉普拉斯特征映射流形距离 Dyna_ Q-learning, Euclidean distance, heuristic planning, path planning, LaplacianEigenmap, manifold distance

分类号 TD67 [矿业工程—矿山机电]

引文网络
相关文献

参考文献10

1钱善华,葛世荣,王永胜,王勇,柳昌庆.救灾机器人的研究现状与煤矿救灾的应用[J].机器人,2006,28(3):350-354. 被引量：105
2李东晓,黎彦学.机器人与全矿山自动化[J].工矿自动化,2007,33(5):40-42. 被引量：12
3李金良,孙友霞,包继华,张媛,姜雪.救援机器人目标跟踪控制的研究[J].工矿自动化,2009,35(12):22-25. 被引量：1
4朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：329
5SUTTON R S, BARTO A G. Reinforcement Learning: an Introduction [M]. Cambridge, MA: MIT Press, 1998.
6王帅.基于强化学习算法的井下移动机器人路径规划[J].电气技术,2008,9(8):47-49. 被引量：4
7SANTOS M, MARTIN H. JA, I.OPEZ V, et al. Dyna-H: A Heuristic Planning Reinforcement Learning Algorithm Applied to Role-playing-game Strategy Decision Systems [J].Knowledge Based Systems, 2012(32) :28-36.
8BELKIN M, NIYOGI P. Laplacian Eigenmaps for Dimensionality Reduction and Data Representation [J]. Neural Computation, 2003,15(6): 1373-1396.
9朱美强,程玉虎,李明,等.一类基于谱方法的强化学习混合迁移算法[J/OL].(2012-09-06).http://www.ehki.net/KCMS/docdown/pubdownload.aspx?dk=u_weev.
10MOORE A W, ATKESON C G. Prioritized Sweeping: Reinforcement Learning with Less Data and Less Real Time[J]. Machine Learning, 1993 (13) :103-130.

二级参考文献93

1戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
2钱善华,葛世荣,王永胜,王勇,柳昌庆.救灾机器人的研究现状与煤矿救灾的应用[J].机器人,2006,28(3):350-354. 被引量：105
3扫雷清障机器人[J].机器人技术与应用,1996(3):21-23. 被引量：2
4MURPHY R. Rescue Robotics for Homeland Security [J]. Communications of the ACM, Special Issue on Homeland Security,2004,27(3) :66-69.
5THRUN S, THAYER W, WHITTAKER C. Autonomous Exploration and Mapping of Abandoned Mines[J]. IEEE Robotics and Automation, 2005, 11(4) :13-28.
6HIROSE S. Study on Roller-walk(Basic Characteristics and Its Control)[C]//Proc. ICRA of IEEE, 1996: 3265-3270.
7YANG J M, KIM J H. Sliding Mode Control for Trajectory Tracking of Nonholonomic Wheeled Mobile Robot[J]. IEEE Transactions on Robotics and Automation, 1999,15 (3) :578-587.
8[1]Khatib O.Real-time obstacle avoidance formanipulators and mobile robot[J].The InternationalJournal of Robotic Research.1986,5(1):90～98.
9[2]M Gemeinder,M Gerke.GA-based Path Planning forRobot System Employing an Active Search Algorithm[J].Applied Soft Computing,2003.3:149～158.
10[5]Sutton R S,Barto A G Reinforcement Learning:AnIntroduction[M].Cambridge,MA:MIT Press,1998.

共引文献444

1刘军,冯硕,任建华.移动机器人路径动态规划有向D~*算法[J].浙江大学学报（工学版）,2020,54(2):291-300. 被引量：27
2黄鲁,周非同.基于路径优化D^*Lite算法的移动机器人路径规划[J].控制与决策,2020,35(4):877-884. 被引量：23
3张凡,蔡涛,刘文达,范亚雷.基于改进JPS算法的电站巡检机器人路径规划[J].电子测量技术,2020,43(8):10-16. 被引量：7
4LI Ke-zhao1, 4, LEI Wei-wei1, 2, GUO Zeng-zhang1, 2, WU Li-xin3, ZHANG Qin4 1. School of Survey and Land Information Engineering, Henan Polytechnic University, Jiaozuo 454003, China,2. Key Laboratory of Mine Spatial Information Technologies of State Bureau of Surveying and Mapping, Henan Polytechnic University, Jiaozuo 454003, China,3. College of Resources and Civil Engineering, Northeastern University, Shenyang 110819, China,4. College of Geology Engineering and Geomatics, Chang’an University, Xi’an 710054, China.Vision navigation algorithm for mine agent based on quaternion[J].中国有色金属学会会刊：英文版,2011,21(S3):610-615.
5王忠民,刘军,窦智,杜占灵.矿难救援机器人的研究应用现状与开发[J].煤矿机械,2007,28(11):6-8. 被引量：32
6崔益安,蔡自兴,王璐.Scene recognition for mine rescue robot localization based on vision[J].中国有色金属学会会刊：英文版,2008,18(2):432-437. 被引量：2
7范路桥,姚锡凡,祁亨年,杨武,蒋梁中.排爆机器人的研究现状及其关键技术[J].机床与液压,2008,36(6):139-143. 被引量：27
8张志超,郑之增,方海峰,褚成成.矿井救灾机器人的导航定位研究[J].煤矿机械,2008,29(11):41-43. 被引量：14
9郑之增,葛世荣,侯园园,方海峰,朱华.基于PC104的煤矿救灾机器人控制系统[J].煤矿机械,2009,30(4):119-122. 被引量：4
10徐钊,田传根,唐璐.矿井救灾机器人通信系统设计[J].徐州工程学院学报（自然科学版）,2009,24(1):1-5. 被引量：6

同被引文献139

1卫星,杨国强,李佳,陆阳,石雷.结合多尺度条件生成对抗网络的井下轨道检测[J].中国图象图形学报,2020,25(2):282-293. 被引量：2
2王鹏江,杨阳,王东杰,吉晓冬,沈阳,陈慎金,李旭,吴淼.悬臂式掘进机煤矸智能截割控制系统与方法[J].煤炭学报,2021,46(S02):1124-1134. 被引量：15
3贾文,李玉虎,丰界泽,赵义,邸晟钧,刘顺,闫孝姮.基于记忆割煤方法的采煤机监控系统设计[J].煤炭工程,2020,52(1):148-153. 被引量：13
4卫星,刘邵凡,杨国强,陆阳,魏臻.基于改进双边分割网络的井下轨道检测算法[J].计算机应用研究,2020,37(S01):348-350. 被引量：4
5王闯,王玉林,赵美宁.超声波传感器在矿山救援机器人中的应用研究[J].煤矿机械,2007,28(1):162-164. 被引量：7
6许苏,许东岳.浅谈射频识别技术在煤矿的应用和发展趋势[J].中国煤炭,2008,34(2):66-69. 被引量：3
7李军利,廉自生,李元宗.机器人化掘进机的运动分析及车体定位[J].煤炭学报,2008,33(5):583-587. 被引量：24
8黄金波,梁鹏,王德伟,张尚坤.基于JN5121无线ZiGBee模块瓦斯巡检系统设计[J].煤矿机电,2008,29(3):25-26. 被引量：5
9张小艳,周筱媛,魏娟.煤矿救援机器人全局路径规划[J].西安科技大学学报,2008,28(2):323-326. 被引量：14
10陈宗海,杨志华,王海波,盛捷.从知识的表达和运用综述强化学习研究[J].控制与决策,2008,23(9):961-968. 被引量：14

引证文献2

1朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：6
2杨春雨,张鑫.煤矿机器人环境感知与路径规划关键技术[J].煤炭学报,2022,47(7):2844-2872. 被引量：33

二级引证文献39

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
3徐耀松,邱微,王治国,王雨虹,阎馨.基于LE与ICROA-RVM的瓦斯传感器故障诊断[J].传感技术学报,2019,32(1):89-95. 被引量：5
4鲍久圣,张牧野,葛世荣,刘琴,袁晓明,王茂森,阴妍,赵亮.基于改进A*和人工势场算法的无轨胶轮车井下无人驾驶路径规划[J].煤炭学报,2022,47(3):1347-1360. 被引量：48
5李树刚,张静非,尚建选,林海飞,王苏健,丁洋,侯恩科,赵泓超.双碳目标下煤气同采技术体系构想及内涵[J].煤炭学报,2022,47(4):1416-1429. 被引量：25
6金淳,冷浕伶,胡畔.基于启发式Q学习的汽车涂装车间作业排序优化[J].运筹与管理,2022,31(6):1-8. 被引量：3
7叶思琪,刘飘,罗金满,余凌,王湘女.一种具有图像功能的电力巡检自站立移动机器人[J].湖北电力,2022,46(2):120-126. 被引量：5
8韩国国,范柄尧.差分进化算法在煤矿井下移动设备路径规划的应用研究[J].中国设备工程,2022(19):91-92. 被引量：1
9张品,李长勇.能耗优化的改进IWOA-APF移动机器人路径规划[J].组合机床与自动化加工技术,2022(11):11-14. 被引量：1
10龙再萌,夏景刚.煤矿井下皮带输送机防爆巡检机器人研究[J].机电产品开发与创新,2022,35(6):26-28. 被引量：2

1谭超,徐志鹏,牛可.采煤机记忆切割路径规划问题研究[J].现代矿业,2009(12):41-42. 被引量：6
2史晓鹏,张银平,袁本胜.爆炸荷载作用下应力波衰减规律研究[J].矿冶,2010,19(3):15-17. 被引量：8
3孙守迁.采掘机器人作业过程的路径规划方法[J].核工业自动化,1992(3):6-9.
4胡圣波,郑志平.一种井下RFID定位系统的读卡器防碰撞算法[J].工矿自动化,2006,32(2):4-7. 被引量：7
5王彦辉,东兆星,齐燕军.起爆方式对应力波传播规律影响的数值模拟[J].黑龙江科技学院学报,2010,20(4):268-271. 被引量：4
6Sott.,JJ,朱明华.DYNA—ROK锚杆和DYNA—ROK PLUS锚杆的现场试验结果[J].矿业译丛,1991(1):43-47.
7吴可胤,邬艳礼.岩石爆破过碎问题数值模拟研究[J].企业技术开发（下半月）,2011,30(7):131-132. 被引量：1
8邹翔宇,徐翊峰,关博文,赵端.基于无线传感器网络的矿震震源定位[J].煤矿安全,2010,41(10):80-84. 被引量：4
9修中标,魏廷双,李彬,张磊.聚类分析在矿井水源判别中的应用[J].煤矿安全,2008,39(2):47-49. 被引量：13
10谭文辉,乔兰.爆破震动对公路边坡稳定性影响的数值模拟[J].岩石力学与工程学报,2005,24(A01):4837-4842. 被引量：5

工矿自动化

2012年第12期

浏览历史

内容加载中请稍等...

一类用于井下路径规划问题的Dyna_Q学习算法被引量：2

参考文献10

二级参考文献93

共引文献444

同被引文献139

引证文献2

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

一类用于井下路径规划问题的Dyna_Q学习算法 被引量：2

参考文献10

二级参考文献93

共引文献444

同被引文献139

引证文献2

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

一类用于井下路径规划问题的Dyna_Q学习算法被引量：2