期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种有限时段Markov决策过程的强化学习算法 被引量:4
1
作者 李春贵 刘永信 《广西工学院学报》 CAS 2003年第1期1-4,共4页
研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决... 研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法 。 展开更多
关键词 强化学习 有限时段 MARKOV决策过程 无完全模型 库存控制 机器学习 非平稳
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部