基于CA-CMAC的Q学习截球算法

Intercepting Algorithm Based on CA-CMAC Q-learning

下载PDF

导出

摘要 CMAC神经网络的主要优点在于其局部修正权重系数,使每次修改的权重系数极少,因此具有快速学习能力,非常适合于在线实时控制。但是在实际的使用过程中,CMAC算法会产生可信度的分配问题。因此使用CA-CMAC来代替CMAC。Q学习是一种重要的强化学习方法,将Q学习与CA-CMAC网络相结合用到Robocup仿真环境中,使智能体通过学习训练球员的截球能力。通过实际的仿真取得了很好的效果,证明算法是有效可行的。 The main advantage of CMAC neural network is the partial correction of weight coefficient.As change very little weight coefficient to get faster learning ability,CMAC is very suitable for real time control.But in the actual process of using,CMAC often faces the problem occurred by the uneven distribution of units＇ credibility,therefore used CA-CMAC instead of CMAC.Q-learning is an important method of reinforcement learning,combined Q-learning and CA-CMAC neural network uses the algorithm in Robocup simulation for improving the agent＇s ability of intercepting.Good results through the simulation are got which shows that the algorithm is deasible and effective.

作者申迅刘国栋

机构地区江南大学物联网工程学院

出处《科学技术与工程》 2011年第7期1580-1582,共3页 Science Technology and Engineering

关键词 ROBOCUP CA-CMAC Q学习智能体 robocup CA-CMAC Q-learing agent

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1邢宇明,白振兴.分层强化学习在足球机器人中的应用[J].微计算机信息,2008,24(32):231-233. 被引量：2
2张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
3Glorennec P Y. Jouffe L. Fuzzy Q-learning. Fuzzy Systems , 1997.Proceedings of the Sixth IEEE International Conference on , 1-5 July 1997 ;2:659--662.
4Watkins C. Q-learning. Machine. Learning, 1992 ;8 (3) :279-292.
5Wong Y F, Sideris A. Learning convergence in eerebenar model artic- ulation controller. IEEE Trans on Neural Networks, 1992; 3 ( 1 ) : 117-122.
6张伟,朱大奇,孔敏,李武朝.基于改进的CMAC神经网络与PID并行控制的研究[J].计算机测量与控制,2005,13(12):1359-1360. 被引量：16

二级参考文献24

1朱大奇,张伟.基于平衡学习的CMAC神经网络非线性辨识算法[J].控制与决策,2004,19(12):1425-1428. 被引量：20
2杨璐,洪家荣,黄梯云.用加强学习方法解决基于神经网络的时序实时建模问题[J].哈尔滨工业大学学报,1996,28(4):136-139. 被引量：2
3阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
4杨威,李俊山,张媛莉.基于HLA的雷达对抗训练仿真系统研究[J].微计算机信息,2006,22(01S):240-242. 被引量：19
5Piao Songhao, Hang Bingrong. Fast Reinforcement earning Appro-ach to Cooperative Behavior Acquisition in Multi-agent System.Proceedings of the 2002 IEEE/RSJ Intl. Conference on IntelligentRobots and Systems, Lausanne, Switzerland. 2002-10:871- 875
6洪炳镕.机器人足球技术的发展战略[A].中国人工智能学会第9届全国学术年会论文集[C].2001.
7STONE P , VELOSO M. Muhi2agent systems : a survey from a machine learning perspective [ R] . CMU CS technical re2 port , No. CMU - CS - 97 - 193.Server. Proc. of IROS Workshop on Robocup, 1996
8Nobuo S, Akira H. A Muhiagent Reinforcement Learning Algorithm Using Extended Optimal Response. Proc. of the First International Joint Conference on Autonomous Agents & Multiagent Systems,Bologna, Italy, 2002-07:370- 377
9Hu Junling, Michael W P. Muhiagent Reinforcement Learning: Theoretical Framework and an Algorithm. Proc.15th International Conf. on Machine Learning 1998:242- 250
10Caroline C, Craig B. The Dynamics of Reinforcement Learning in Cooperative Muhiagent Systems. In Proc. Workshop on Multi-agent Learning, 1997:602- 608

共引文献107

1李徐,张帆.受强化学习思想启发的一种结构优化算法[J].智能计算机与应用,2022,12(5):136-140. 被引量：1
2孙方平,符秀辉.复杂环境下机器人的行为学习研究[J].仪器仪表学报,2006,27(z3):1982-1983. 被引量：2
3朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
4闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
5蒋伟进,许宇胜,孙星明,许宇晖.多智能体的分布式智能故障诊断[J].控制理论与应用,2004,21(6):945-950. 被引量：22
6张驰,韩光胜.改进的模糊Q学习方法及其在RoboCup中的应用[J].计算机仿真,2005,22(5):189-192. 被引量：2
7刘钊,陈建勋.基于自适应遗传算法的足球机器人策略设计[J].哈尔滨工业大学学报,2005,37(7):912-913. 被引量：4
8任燚,陈宗海.自主移动机器人中基于强化学习的噪声消解策略(英文)[J].系统仿真学报,2005,17(7):1699-1703.
9柳在鑫,王进戈,王强.基于Q学习与CBL结合的机器人足球行为学习研究[J].西华大学学报（自然科学版）,2005,24(4):58-60. 被引量：2
10张汝波,施洋.基于模糊Q学习的多机器人系统研究[J].哈尔滨工程大学学报,2005,26(4):477-481. 被引量：4

1司媛媛,何斌.基于CPG和小脑模型的双足机器人行走控制[J].系统仿真技术,2017,13(1):6-10. 被引量：14
2陈立军,孙博,薛宏,赵丽丽.过热汽温改进CMAC神经网络控制[J].化工自动化及仪表,2010,37(11):5-8. 被引量：1
3赖惠鸽,朱学军,俞金寿.基于智能算法的污水处理软测量技术及其展望[J].化工自动化及仪表,2011,38(3):241-244. 被引量：6
4李霞,谢涛,陈维山.基于神经网络的双足机器人逆运动学求解[J].机械设计,2003,20(4):36-38. 被引量：1
5王天民,王青松,高波.模糊PID控制器的设计与建模[J].电气时代,2014(7):92-94.
6谭成午,张桂香,刘福建.基于复合控制的飞机舵机伺服系统动态仿真[J].计算机仿真,2016,33(1):77-80. 被引量：2
7朱大奇,陈楚瑶,颜明重.基于CA-CMAC的快速传感器故障诊断方法[J].电子学报,2008,36(8):1646-1650. 被引量：8
8张蕾,曹其新,Jay Lee,Frank L. Lewis.PCA-CMAC based machine performance degradation assessment[J].Journal of Southeast University(English Edition),2005,21(3):299-303. 被引量：3
9张觐,付冬梅.小脑模型在精馏塔浓度预测中的应用[J].自动化仪表,2005,26(4):40-42. 被引量：4
10何超,徐立新,张宇河.CMAC算法收敛性分析及泛化能力研究[J].控制与决策,2001,16(5):523-529. 被引量：29

科学技术与工程

2011年第7期

浏览历史

内容加载中请稍等...

基于CA-CMAC的Q学习截球算法

参考文献6

二级参考文献24

共引文献107

相关作者

相关机构

相关主题

浏览历史