期刊文献+

二次奖罚学习自动机

Quadratic Reward-Penalty Learning Automaton
下载PDF
导出
摘要 研究了奖罚型学习自动机的一种非线性强化算法。与线性的奖罚模型(LRP)不同,新模型的行动选择概率的更新函数为二次的。这使得该模型的学习性能优于LRP,且对不同的环境,其具有不同的行为和特点。 In this paper a nonlinear reinforcement algorithm for reward penalty type learning automata is studied. It is different from the linear reward penalty model (L RP ), the update function of action selection probability of the presented algorithm is quadratic. The learning performance of the new model is superior to the one of the L RP Additionally, for different environments, the proposed automaton possesses different behaviours and properties.
作者 刘晓
出处 《航空计算技术》 1999年第2期47-49,共3页 Aeronautical Computing Technique
关键词 人工智能 强化学习 学习自动机 二次奖罚 Artificial intelligence Reinforcement learning Learning automata
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部