期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)
1
作者 殷苌茗 王汉兴 +1 位作者 陈焕文 谢丽娟 《长沙电力学院学报(自然科学版)》 2003年第4期12-16,共5页
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般... 智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题. 展开更多
关键词 遗忘算法 激励学习 MARKOV决策过程 ATD(λ) 有效跟踪 平均渐进瞬时差分学习 心理学
下载PDF
基于TD学习的网格资源预测方法 被引量:1
2
作者 张树东 曹元大 廖乐键 《计算机工程》 EI CAS CSCD 北大核心 2005年第21期17-18,68,共3页
提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算... 提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算法是有效的。同时给出了学习速度参数和历史信息相关度参数对预测的影响。 展开更多
关键词 强化学习 瞬时差分学习 网格 资源预测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部