自组织映射神经网络量化机器人强化学习方法研究被引量：2

Research on Reinforcement Learning of the Robot Based on The SOM Neural Nebnwork Quantization

下载PDF

导出

摘要强化学习一词来自于行为心理学 ,这门学科把行为学习看成反复试验的过程 ,从而把环境状态映射成相应的动作 .在设计智能机器人过程中 ,如何来实现行为主义的思想、在与环境的交互中学习行为动作 ?文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为 ,采用强化学习方法来实现智能机器人避碰行为学习 .为了提高机器人学习速度 ,在机器人局部路径规划中的状态空间量化就显得十分重要 .本文采用自组织映射网络的方法来进行空间的量化 .由于自组织映射网络本身所具有的自组织特性 ,使得它在进行空间量化时就能够较好地解决适应性灵活性问题 ,本文在对状态空间进行自组织量化的基础方法上 ,采用强化学习 .解决了机器人避碰行为的学习问题。 The occept of the reinforcement learning comes from behavior psychology that takes behavior learning as trial and error ,by which the states of envirment are mapped into corresponding actiovs .There's a question of how dose the beheviorism be used to learn the actions in interactoion with the environment in destgning intelligent robot in this paper ,the actions that robot takes to avoid obstades are taken as one class of behaviors and the reinforcement learning is used to realize behavior learning of obstacle avoidance.The quantization of state space shows very important in improving robot's learning speed .The SOM neural network is adopted to get quantization of state space in this paper ,The self organization characteristic of SOM neural network makes it possible to solve adaptation and flexible in space quantization .The reinforcement learning is used to solve the robot learning of avoidence collision behavior based on quantization of state space and the satisfying results are got .

作者孙羽张汝波顾国昌

机构地区湛江海洋大学工程学院哈尔滨工程大学计算机系

出处《小型微型计算机系统》 CSCD 北大核心 2002年第5期558-560,共3页 Journal of Chinese Computer Systems

关键词强化学习自组织量化神经网络智能机器人 renforcement leaming intellingent robot self organization quantization neural networks

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1Thrum Sebastian ,Mitcheil Tom M.Lifelong robot leaning[J].Robotics and Autonomous System.1995,15:25～46
2Ben J.A.Krose,Joris W.Mvan Dam.Adaptive state space quantisition,for reiforcement learning of collide free navigation[J].1922 IEEE/RSJ Internation Conference on Intelligent Robots and System.Rakeigh,NC.July 7～10 ,1992:1327～1332
3Watking,J.C.Hand Dayan Peter.Q-leaming[J].Machine Learning.1992,8:279～292
4阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30

二级参考文献6

1Leslie Pack Kaelbling. Associative Reinforcement Learning: Functions in k-DNF[J] 1994,Machine Learning(3):279～298
2Leslie Pack Kaelbling. Associative Reinforcement Learning: A Generate and Test Algorithm[J] 1994,Machine Learning(3):299～319
3Leslie Pack Kaelbling. Associative reinforcement learning: Functions ink-DNF[J] 1994,Machine Learning(3):279～298
4Ronald J. Williams. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] 1992,Machine Learning(3-4):229～256
5Christopher J.C.H. Watkins,Peter Dayan. Technical Note: Q-Learning[J] 1992,Machine Learning(3-4):279～292
6Richard S. Sutton. Learning to predict by the methods of temporal differences[J] 1988,Machine Learning(1):9～44

共引文献29

1王维,王磊,禹建丽.学习控制在机器人路径规划中的应用[J].控制工程,2003,10(z2):193-195.
2袁著祉,陈增强,李翔.联接主义智能控制综述[J].自动化学报,2002,28(S1):38-59. 被引量：3
3郭红霞,吴捷,刘永强,王春茹.基于强化学习算法的静止同步补偿电压控制器[J].电网技术,2004,28(19):9-13. 被引量：25
4王春茹,吴捷,郭红霞.基于强化学习算法的网络拥塞控制[J].计算机工程与应用,2005,41(3):18-20. 被引量：2
5张海渠,陈淑利.塑性加工中的人工智能技术[J].沈阳大学学报,2002,14(4):5-9.
6郭红霞,吴捷,王春茹.基于强化学习的模型参考自适应控制[J].控制理论与应用,2005,22(2):291-294. 被引量：5
7李佳宁,易建强,赵冬斌,西广成.一种基于强化学习的在线神经模糊控制系统[J].中国科学院研究生院学报,2005,22(5):631-638. 被引量：1
8陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150. 被引量：3
9秦政,丁福光,边信黔.强化学习在移动机器人自主导航中的应用[J].计算机工程与应用,2007,43(18):215-217. 被引量：5
10马莉,蔡自兴.基于强化学习的模糊自适应控制器[J].中南工业大学学报,1998,29(2):172-175. 被引量：1

同被引文献15

1林联明,王浩,王一雄.基于神经网络的Sarsa强化学习算法[J].计算机技术与发展,2006,16(1):30-32. 被引量：4
2Sutton R S,Barto A G.Reinforcement learning[M].MA:The MIT Press,1998.
3Kaelbling L P, Littman M L, Moore A W. Reinforcement leaming:A survey[J].Journal of Artificial Intelligence Research, 1996,4(2):237-285.
4Sutton R S.Learning to predit by the method of temporal differences[J].Machine Learing, 1988(3):9-44.
5Watkins CJCH,Dayan P.Q-learning[J].Machine Learning,1992 (8):279-292.
6Rummery G A,Niranjan M.On-line Q-learning using connectionist systems[R].Cambridge University Engineering Department, 1994.
7Singh S P, Sutton R S.Reinforcement learning with replacing eligibility traces[J].Machine Learning, 1996,22:123-158.
8Peng J, Williams R. Incremental multi-step Q-learning [J]. Machine Learning, 1996,22(4):283-290.
9Andrew James Smith.Applications of the self-organising map to reinforcement learning [J]. Neural Networks, 2002,15 (8-9): 1107-1124.
10Kohonen T.Self-organizing maps[C].Springer Series in Information Sciences.New York,USA:Springer,2001.

引证文献2

1殷苌茗,付超红,薛丽华,李立云.基于组合神经网络的Sarsa(λ)学习算法[J].计算机工程与设计,2008,29(22):5817-5819.
2陈晓辉,张银银,付云霞,雷帮军.自组织映射节点定位算法中邻域函数的优化方法研究[J].小型微型计算机系统,2017,38(2):213-216. 被引量：3

二级引证文献3

1刘云萍,刘晋钢.大数据中用户通信信息准确定位仿真[J].计算机仿真,2018,35(11):392-395. 被引量：2
2韩春玲.基于大数据的智能电能表关键组件技术的研究综述[J].电气应用,2019,38(4):56-63. 被引量：10
3马林,周妍妍.网格环境中异构网络数据库空间冲突检测方法[J].内蒙古民族大学学报（自然科学版）,2020,35(3):221-226. 被引量：1

1周攀,张冬梅,龚文引,李阳,刘凯伟.基于正交设计的自适应ε占优MOEA/D算法研究[J].计算机应用与软件,2013,30(2):58-64. 被引量：4
2邢高峰.浅谈智能机器人避碰行为的学习方法[J].电脑知识与技术,2007(8):829-829. 被引量：2
3张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
4荣盘祥,曾凡永,黄金杰.数据挖掘中特征选择算法研究[J].哈尔滨理工大学学报,2016,21(1):106-109. 被引量：14
5林海云,赵庆江,王宇娇,李晓凤.基于3G核心网IMS的移动学习系统[J].计算机与数字工程,2011,39(3):69-71. 被引量：6
6张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：91
7孙羽,张英夫,张汝波.智能机器人避碰行为学习方法研究[J].计算机工程与应用,2001,37(13):132-134. 被引量：1
8李跃新,邓芳,秦莉.PVM并行计算(处理)的基础方法[J].湖北大学成人教育学院学报,2003,21(1):71-74.
9张汝波.提高强化学习速度的方法研究[J].计算机工程与应用,2001,37(22):38-40. 被引量：8
10宫静思.浅析设计中行为心理学的应用——以人种学访谈为例[J].艺术科技,2016,29(2):235-235.

小型微型计算机系统

2002年第5期

浏览历史

内容加载中请稍等...

自组织映射神经网络量化机器人强化学习方法研究被引量：2

参考文献4

二级参考文献6

共引文献29

同被引文献15

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

自组织映射神经网络量化机器人强化学习方法研究 被引量：2

参考文献4

二级参考文献6

共引文献29

同被引文献15

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

自组织映射神经网络量化机器人强化学习方法研究被引量：2