强化学习主要算法的研究被引量：1

Study of the Main Reinforcement Learning Algorithms

下载PDF

导出

摘要介绍了强化学习模型 ,分别提出了 7个主要的强化学习算法并讨论了它们之间的区别和联系。 The model of reinforcement learning is first introduced in this paper ,Then the seven main algorithms including dynamic programming, Monte-Carlo method ,Temporal-Difference, Q-learning are given respectively and their difference and relation are pointed out .At last, future research direction are proposed.

作者李瑞

机构地区渝西学院数学与计算机科学系

出处《渝西学院学报（自然科学版）》 2004年第3期22-25,共4页

关键词强化学习动态规划蒙特卡罗算法瞬时差分算法 reinforcement learning Dynamic Programming Monte-Carlo method Temporal-DiReinfo

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1[1]Kaelbling P. Leslie, Littman L. Michael, Moore W. Andrew. Reinforcement Learning: a survey[J]. Journal of Artificial Intelligence, 1996, (4) :237 - 285.
2[2]Sutton R S, Barto A G. Reinforcement Learning: An Introduction[M]. MA:MIT Press,1998.
3[3]Bellman R E. Dynamic Programing Princeton University Press. 1957.
4[4]Sutton R S .Learning to predict by the methods of temporal difference[J].Mache Learning, 1998,(3):9- 44.
5[5]Sutton R S. Temporal credit assignment in reinforcement learning[ M]. PhD thesis. University of Massachusetts, Amherst 1984.

同被引文献11

1续爽,贾云得.一种基于意图跟踪和强化学习的agent模型[J].北京理工大学学报,2004,24(8):679-682. 被引量：3
2EINSTein: An Artificial-Life Laboratory for Exploring Self-Organized Emergence in Land Combat[R]. Ilachinski, A. CNA Research Memorandum CRM D239, 2000.
3Exploring Self-Organized Emergence in an Agent-Based Synthetic Warfare Lab. Dr. Andy Ilachinski [EB/OL]. http://www.cna.org.
4Towards a Science of Experimental Complexity:An Artificial-Life Approach to Modeling Warfare. Andy Ilachinski [EB/OL].http://www.cna.org.
5Irreducible Semi-Autonomous Adaptive Combat (ISAAC): An Artificial-Life Approach to Land Warfare [R]. Ilachinski, A. Center for Naval Analyses Research Memorandum CRM, 1997,97-61.
6Operational Synthesis Applied to Mutual NZAJS Questions Part Ⅰ,Marine Corp Combat Development Command[Z].
7Enhanced ISAAC Neural Simulation Toolkit (EINSTein), User's Guide [R]. Ilachinski, A,CNA, CIM 610.10,1999.
8The Science of Complexity for Military Operations Research, W. O.Hedgepeth[J]. Phalanx, 26(1): 1993.
9李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
10陈卫东,席裕庚,顾冬雷.自主机器人的强化学习研究进展[J].机器人,2001,23(4):379-384. 被引量：16

引证文献1

1李志强,胡晓峰,张斌,董忠林.基于强化学习的指挥控制Agent适应性仿真研究[J].系统仿真学报,2005,17(11):2801-2804. 被引量：8

二级引证文献8

1罗批,胡晓峰,司光亚,张忠海.战争系统人工社会的研究实践与几点思考[J].系统仿真学报,2006,18(12):3589-3592. 被引量：3
2胡晓峰,李志强,司光亚,罗批.现代战争模拟研究的新方向：社会仿真[J].计算机仿真,2008,25(1):1-5. 被引量：17
3李志强,胡晓峰,司光亚,宋勇.国家关键基础设施网络综合仿真模型设计[J].计算机仿真,2009,26(1):15-19. 被引量：5
4徐宗昌,陈悦峰,常莉,周健.基于多Agent／Swarm军事系统建模研究[J].系统仿真学报,2009,21(7):2049-2052. 被引量：5
5孙林,胡晓峰,李志强,吕令保.基于Agent能源基础设施仿真模型设计与实现[J].计算机应用,2009,29(9):2537-2540. 被引量：4
6胡晓峰,李志强.国家关键基础设施建模仿真研究[J].上海理工大学学报,2011,33(6):687-693. 被引量：4
7李庆梅,周兵,聂佃忠.经济社会转型期我国社会道德水平优化分析--基于建模与仿真的研究视角[J].甘肃理论学刊,2018,0(6):68-73.
8王步云,刘聚.作战Agent的学习算法研究进展与发展趋势[J].兵工自动化,2023,42(9):74-78.

1战忠丽,王强,陈显亭.强化学习的模型、算法及应用[J].电子科技,2011,24(1):47-49. 被引量：8
2安飞,林锦国,李俊.一种基于MPEG-1检测运动目标的方法[J].微计算机信息,2008(3):306-307.
3何宏,李宇,张志宏.基于图像识别的爬壁机器人的路径规划[J].工业技术创新,2015,2(3):267-271. 被引量：1
4仲宇,顾国昌,张汝波.多智能体系统中的分布式强化学习研究现状[J].控制理论与应用,2003,20(3):317-322. 被引量：12
5靳敏,石磊,郑静.运动目标检测与识别算法的研究[J].黑龙江工程学院学报,2009,23(3):45-48.
6孙魁,吴成东.强化学习模型及其在避障中的应用[J].山东工业技术,2016(1):261-263.
7梁宏倩.多智能体系统中强化学习模型的改进及应用[J].西安文理学院学报（自然科学版）,2008,11(2):93-96. 被引量：1
8蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
9章国安,丁晨莉,包志华.认知无线Mesh网络自适应多路径算法[J].电讯技术,2010,50(9):55-59.
10王腾,李长江.基于强化学习的全自主机器人足球系统协作研究[J].科学技术与工程,2011,11(5):979-982. 被引量：1

渝西学院学报（自然科学版）

2004年第3期

浏览历史

内容加载中请稍等...

强化学习主要算法的研究被引量：1

参考文献5

同被引文献11

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

强化学习主要算法的研究 被引量：1

参考文献5

同被引文献11

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

强化学习主要算法的研究被引量：1