期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
平均报酬模型强化学习理论、算法及应用 被引量:4
1
作者 黄炳强 曹广益 李建华 《计算机工程》 CAS CSCD 北大核心 2007年第18期18-19,39,共3页
折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬... 折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。 展开更多
关键词 平均报酬强化学习 R学习 H学习
下载PDF
基于平均报酬模型的强化学习算法研究 被引量:1
2
作者 黄炳强 曹广益 +1 位作者 费燕琼 王占全 《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化... 对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向. 展开更多
关键词 平均报酬强化学习 R学习 H学习 LC学习
下载PDF
可重入生产系统的平均报酬型强化学习调度 被引量:5
3
作者 柳长春 沈志江 于海斌 《信息与控制》 CSCD 北大核心 2004年第2期145-150,共6页
在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优... 在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优于两种熟知的优先权调度策略 . 展开更多
关键词 可重入生产系统 平均报酬强化学习调度 优化 调度策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部