强化学习的一些基本算法和应用

下载PDF

导出

摘要当前,人工智能扮演的角色越来越重要。强化学习比较适应智能体在未知的环境中通过试错这一动作,获得反馈,不断自我调整、自我学习、自我提高,像人一样具备学习能力,积极主动地完成目标。因此,思考和讨论强化学习在人工智能中非常有价值。

作者黄志锋

机构地区苏州大学计算机科学与技术学院海门市冠今中学

出处《信息与电脑》 2015年第9期100-102,共3页 Information & Computer

关键词强化学习函数人工智能

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1祝宇虹,毛俊鑫.基于人工情感与Q学习的机器人行为决策[J].机械与电子,2011,29(7):61-65. 被引量：3
2陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：61

二级参考文献68

1杨洋,陈小平.动态不确定环境下的决策:一种分层决策模型[J].计算机科学,2005,32(1):151-154. 被引量：1
2苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
3秦志斌,钱徽,朱淼良.自主移动机器人混合式体系结构的一种Multi-agent实现方法[J].机器人,2006,28(5):478-482. 被引量：8
4原魁,李园,房立新.多移动机器人系统研究发展近况[J].自动化学报,2007,33(8):785-794. 被引量：73
5AL-BATAH M S,MATISA N A,ZAMLI K Z,et al.Modified recursive least squares algorithm to train the hybrid multilayered perceptron (HMLP) network[J].Applied Soft Computing,2010,10(1):236-244.
6BOWLING M.Multi agent learning in the presence of agents with limi-tations[R].Pittsburgh:Carnegie Mellon University,2003.
7KYUN Y,OH S-Y.Hybrid control for autonomous mobile robotnavigation using neural network based behavior modules and environment classification[J].Autonomous Robots,2003,15(2):193-206.
8ARAI S,SYCARA K.Multi-agent reinforcement learning for planning and conflict resolution in a dynamic domain[C] //Proc of the 4th International Conference on Autonomous agents.2000:104-105.
9VRANCY P,VERBEEK K,NOWE A.Decetralized learning in Markov games[J].IEEE Trans on Systems,Man and Cyberne-tics Part B:Cybernetics,2008,38(4):976-981.
10LUCIAN B,ROBERT B,BART D S.A comprehension survey of multiagent reinforcement learning[J].IEEE Trans on Systems,Man and Cybernetics Part C:Applications and Reviews,2008,68(2):156-172.

共引文献62

1李小强,杨凯,代龙飞,夏炜豪,蔡正鑫.冷轧连退机组中央段自动控制系统开发[J].冶金自动化,2023,47(S01):121-124.
2张雨.基于马尔科夫过程状态转移矩阵的桥梁结构技术状态预测方法研究[J].四川水泥,2023(3):212-214. 被引量：1
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4胡健.基于Q学习的无线传感器网络路由协议[J].计算机与现代化,2013(3):131-134.
5南杨,李中健,叶文伟.基于强化学习的飞行自动驾驶仪设计[J].电子设计工程,2013,21(10):45-47. 被引量：3
6陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
7杨宛璐,陈玮,黄浩晖,王广涛.性能势算法研究及在RoboCup中的应用[J].计算机工程与设计,2014,35(3):905-908.
8马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
9刘晓.基于连续动作学习自动机的联想强化学习[J].山西大学学报（自然科学版）,2015,38(3):426-431. 被引量：4
10栾咏红,章鹏.强化学习方法的对比分析[J].计算机时代,2015(12):93-97. 被引量：2

1刘涛.解决变频器干扰问题的有效途径[J].山东工业技术,2016(16):255-255.
2周俊杰.无线传感器网络低能耗路由协议研究[J].科技创新与应用,2016,6(16):84-84.
3谌波.项目管理中的10个误区[J].中国金融电脑,2004(8):27-28.
4范恒胜,曾素明,于跃.关于视频监控运用行为习惯特征分析的思考[J].广东公安科技,2014,22(3):55-56. 被引量：1
5曾青.智能化住宅小区有线电视网络建设[J].西部广播电视,2016,37(14):255-255. 被引量：2
6蒙晶.分层技术在计算机软件开发中的应用分析[J].科技资讯,2017,15(5):36-37. 被引量：4
7郭春梅,毕学尧,杨帆.云计算安全技术研究与趋势[J].信息网络安全,2010(4):16-17. 被引量：39
8赵志永.学以致用[J].北京广播电视大学学报,2012(3):20-22.
9撒志敏.多媒体与学科教学[J].和田师范专科学校学报,2009,29(1):214-215. 被引量：1

信息与电脑

2015年第9期

浏览历史

内容加载中请稍等...

强化学习的一些基本算法和应用

参考文献2

二级参考文献68

共引文献62

相关作者

相关机构

相关主题

浏览历史