基于强化学习的多机器人避碰算法研究被引量：2

Algorithm of multi-robot collision avoidance based on reinforcement learning

下载PDF

导出

摘要采用强化学习解决多机器人避碰问题。然后针对表格式Q学习算法只能用于离散的状态并且学习时间过长,难以收敛的不足,提出了神经网络和Q学习相结合的算法。最后将该算法应用到多机器人避碰问题中,仿真实验表明该算法有效,能较好地解决多机器人避碰问题。 This paper adopts reinforcement learning to solve multi-robot collision avoidance problems. Then in allusion to the insufficiency that tabular Q-learning algorithm can only be used for discrete states and learning time is too long, difficult to convergence, it puts forward combination of neural networks and Q-learning algorithms. Finally the algorithm is applied to multi-robot collision avoidance problems. The simulation experiments show that the algorithm is effective and well solve the multi-robot collision avoidance problems.

作者段勇陈腾峰

机构地区沈阳工业大学信息科学与工程学院

出处《信息技术》 2012年第6期100-103,共4页 Information Technology

关键词多机器人避碰强化学习神经网络 multi-robot collision avoidance reinforcement learning neural networks

分类号 TN957 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献2

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
2宋梅萍,顾国昌,张汝波.移动机器人的自适应式行为融合方法[J].哈尔滨工程大学学报,2005,26(5):586-590. 被引量：5

二级参考文献15

1MORENO D L. Using prior knowledge to improve reinforcement learning in mobile robotics[A]. Towards Autonomous Robotic Systems [C]. Colchester, UK, 2004.
2DIXON K, MALAK R, KNOSLA P. Incorporating prior knowledge and previously learned information into reinforcement learning agents [R].Carnegie Mellon University, Institute for Complex Engineered Systems, 2000.
3WATKINS C J, DAYAN P. Q-learning [J]. Machine Learning, 1992, 8(3-4): 279-292.
4TAN Ming. Multi-agent reinforcement learning: Independent vs. cooperative agents [A]. Proceedings of the Tenth International Conference on Machine Learning [C]. Amherst, MA, USA, 1993.
5LITTMAN M L. Friend-or-foe Q-learning in general-sum games [A]. Proceedings of the Eighteenth International Conference on Machine Learning [C]. Williamstown, MA, USA, 2001.
6KAELBLING L P, LITTMAN M L, MOORE A W. Reinforcement learning: a survey [J]. Journal of Artificial Intelligence Research, 1996, 4(2): 237-285.
7Leslie Pack Kaelbling. Associative Reinforcement Learning: Functions in k-DNF[J] 1994,Machine Learning(3):279～298
8Leslie Pack Kaelbling. Associative Reinforcement Learning: A Generate and Test Algorithm[J] 1994,Machine Learning(3):299～319
9Leslie Pack Kaelbling. Associative reinforcement learning: Functions ink-DNF[J] 1994,Machine Learning(3):279～298
10Ronald J. Williams. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] 1992,Machine Learning(3-4):229～256

共引文献33

1王维,王磊,禹建丽.学习控制在机器人路径规划中的应用[J].控制工程,2003,10(z2):193-195.
2袁著祉,陈增强,李翔.联接主义智能控制综述[J].自动化学报,2002,28(S1):38-59. 被引量：3
3郭红霞,吴捷,刘永强,王春茹.基于强化学习算法的静止同步补偿电压控制器[J].电网技术,2004,28(19):9-13. 被引量：25
4王春茹,吴捷,郭红霞.基于强化学习算法的网络拥塞控制[J].计算机工程与应用,2005,41(3):18-20. 被引量：2
5张海渠,陈淑利.塑性加工中的人工智能技术[J].沈阳大学学报,2002,14(4):5-9.
6郭红霞,吴捷,王春茹.基于强化学习的模型参考自适应控制[J].控制理论与应用,2005,22(2):291-294. 被引量：5
7李佳宁,易建强,赵冬斌,西广成.一种基于强化学习的在线神经模糊控制系统[J].中国科学院研究生院学报,2005,22(5):631-638. 被引量：1
8陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150. 被引量：3
9黄庆成,洪炳镕,蔡则苏,朴松昊.一种新型的智能机器人——可拓机器人[J].哈尔滨工业大学学报,2006,38(7):1133-1134. 被引量：2
10秦政,丁福光,边信黔.强化学习在移动机器人自主导航中的应用[J].计算机工程与应用,2007,43(18):215-217. 被引量：5

同被引文献11

1邢高峰.浅谈智能机器人避碰行为的学习方法[J].电脑知识与技术,2007(8):829-829. 被引量：2
2王剑,肖龙.基于遗传模糊控制的多机器人避碰规划[J].自动化技术与应用,2009,28(1):24-30. 被引量：1
3张汝波,周宁,顾国昌,张国印.基于强化学习的智能机器人避碰方法研究[J].机器人,1999,21(3):204-209. 被引量：23
4王佳,王艳新.基于滑动模型与图论的多机器人跟踪控制[J].计算机仿真,2010,27(10):156-159. 被引量：3
5张永华,苑文法.李雅普诺夫函数的构造及应用[J].榆林学院学报,2011,21(6):21-23. 被引量：8
6张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
7杨一波,王朝立.基于改进的人工势场法的机器人避障控制及其MATLAB实现[J].上海理工大学学报,2013,35(5):496-500. 被引量：17
8欧阳鑫玉,杨曙光.基于势场栅格法的移动机器人避障路径规划[J].控制工程,2014,21(1):134-137. 被引量：74
9孙羽,张英夫,张汝波.智能机器人避碰行为学习方法研究[J].计算机工程与应用,2001,37(13):132-134. 被引量：1
10王东署,段谊海,王佳.未知环境中移动机器人的环境探索与地图构建[J].郑州大学学报（理学版）,2014,46(3):96-101. 被引量：3

引证文献2

1周鹏程.基于强化学习的智能机器人避碰方法研究[J].消费电子,2013(18):174-175.
2邓计才,孟森森,王佳,张大伟.多移动机器人避障与协作避碰研究[J].郑州大学学报（理学版）,2017,49(2):96-100. 被引量：1

二级引证文献1

1黄晶.制造中协作机器人系统的安全保证机制[J].中国新技术新产品,2021(14):15-17.

1蔡红辉,柳卉.基于AT89C2051的室内红外遥控电动车电路设计[J].中国科技信息,2006(10):154-156.
2杨盈昀.编辑决定表格式[J].电视字幕．特技与动画,2005,12(1):39-41.
3黄影,严定宇,李男.动态频谱接入的Q学习优化算法[J].西安电子科技大学学报,2015,42(6):179-183. 被引量：1
4各种体制的导航制导系统[J].电子科技文摘,2002,0(8):69-70.
5李文福.在C4ISR框架下的AIS信号处理[J].天津航海,2008(2):58-59.
6各种体制与用途的雷达及系统[J].电子科技文摘,2002,0(9):77-78.
7黎洪生,刘苏敏,胡冰,贺远华.基于IEEE 802.15.4网络的天车避碰系统设计[J].机床与液压,2009,37(10):141-142.
8齐国清,贾欣乐.船舶综合导航系统[J].大连海事大学学报,1998,24(1):35-40. 被引量：11
9吴启晖,刘琼俐.基于DAQL算法的动态频谱接入方案[J].解放军理工大学学报（自然科学版）,2008,9(6):607-611. 被引量：3
10王翔,叶引,彭国均.航海保障事业中对使用北斗卫星导航系统的探索[J].硅谷,2014,7(7):4-5. 被引量：4

信息技术

2012年第6期

浏览历史

内容加载中请稍等...

基于强化学习的多机器人避碰算法研究被引量：2

参考文献2

二级参考文献15

共引文献33

同被引文献11

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多机器人避碰算法研究 被引量：2

参考文献2

二级参考文献15

共引文献33

同被引文献11

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多机器人避碰算法研究被引量：2