二次奖罚学习自动机

Quadratic Reward-Penalty Learning Automaton

下载PDF

导出

摘要研究了奖罚型学习自动机的一种非线性强化算法。与线性的奖罚模型（ＬＲＰ）不同，新模型的行动选择概率的更新函数为二次的。这使得该模型的学习性能优于ＬＲＰ，且对不同的环境，其具有不同的行为和特点。 In this paper a nonlinear reinforcement algorithm for reward penalty type learning automata is studied. It is different from the linear reward penalty model (L RP ), the update function of action selection probability of the presented algorithm is quadratic. The learning performance of the new model is superior to the one of the L RP Additionally, for different environments, the proposed automaton possesses different behaviours and properties.

作者刘晓

机构地区中国航空计算技术研究所

出处《航空计算技术》 1999年第2期47-49,共3页 Aeronautical Computing Technique

关键词人工智能强化学习学习自动机二次奖罚 Artificial intelligence Reinforcement learning Learning automata

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘晓.一种自信学习自动机[J].航空计算技术,1998,28(1):13-15. 被引量：1

二级参考文献1

1刘晓.一种通过积累教训来实现学习的随机自动机[J].航空计算技术,1994,24(4):59-63. 被引量：1

1杨忠烽.Excel VBA在考核统计中的应用[J].办公自动化,2016,21(13):57-59.
2邱武.基于ASP.NET平台的负荷考核系统研究[J].科学技术与工程,2010,10(29):7295-7298. 被引量：1
3杨培勇,赵志强,孙鹏.一种智能终端数据共享中的预取缓存技术[J].网络新媒体技术,2012,1(4):31-36. 被引量：2
4宋秀琴.基于考核、奖罚和班组成本核算的矿山辅助系统的开发与应用[J].电脑知识与技术,2009,5(12):9715-9716.
5王永恒.基于WEB的辅导员管理系统的设计与开发[J].自动化与仪器仪表,2017(4):219-222. 被引量：1
6刘继德,何玉萍.岳阳市实行安全生产信息和新闻宣传考核计分奖罚办法[J].湖南安全与防灾,2008(6):28-28.
7邵景峰,厉谦,畅朝霞.RBAC在高校智能排考系统中的应用[J].西安工程大学学报,2013,27(5):660-666. 被引量：3
8丁宇清,施颂椒,胡庭姝.H_∞鲁棒输出反馈设计方法[J].控制理论与应用,1996,13(5):672-676.
9杨毅,杨新伦,唐西西.改进的动态网格信任模型[J].煤炭技术,2011,30(8):228-230.
10韦一平.如何让不同用户使用不同的菜单、工具条和快捷菜单[J].电脑编程技巧与维护,2006(9):88-90.

航空计算技术

1999年第2期

浏览历史

内容加载中请稍等...

二次奖罚学习自动机

参考文献1

二级参考文献1

相关作者

相关机构

相关主题

浏览历史