期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)
1
作者
殷苌茗
王汉兴
+1 位作者
陈焕文
谢丽娟
《长沙电力学院学报(自然科学版)》
2003年第4期12-16,共5页
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般...
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题.
展开更多
关键词
遗忘算法
激励
学习
MARKOV决策过程
ATD(λ)
有效跟踪
平均渐进
瞬时差分学习
心理学
下载PDF
职称材料
基于TD学习的网格资源预测方法
被引量:
1
2
作者
张树东
曹元大
廖乐键
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第21期17-18,68,共3页
提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算...
提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算法是有效的。同时给出了学习速度参数和历史信息相关度参数对预测的影响。
展开更多
关键词
强化
学习
瞬时差分学习
网格
资源预测
下载PDF
职称材料
题名
基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)
1
作者
殷苌茗
王汉兴
陈焕文
谢丽娟
机构
上海大学理学院
长沙理工大学计算机与通信工程学院
出处
《长沙电力学院学报(自然科学版)》
2003年第4期12-16,共5页
基金
NSFgrantofChina( 60 0 75 0 19)
文摘
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题.
关键词
遗忘算法
激励
学习
MARKOV决策过程
ATD(λ)
有效跟踪
平均渐进
瞬时差分学习
心理学
Keywords
forgetting algorithms
reinforcement learning
markov decision process
ATD(λ)
trace
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于TD学习的网格资源预测方法
被引量:
1
2
作者
张树东
曹元大
廖乐键
机构
北京理工大学信息科学技术学院计算机科学工程系
北京理工大学软件学院
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第21期17-18,68,共3页
基金
国家自然科学基金资助项目(60373057)
文摘
提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算法是有效的。同时给出了学习速度参数和历史信息相关度参数对预测的影响。
关键词
强化
学习
瞬时差分学习
网格
资源预测
Keywords
Reinforcement learning
TD(λ) learning
Grid
Resource prediction
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)
殷苌茗
王汉兴
陈焕文
谢丽娟
《长沙电力学院学报(自然科学版)》
2003
0
下载PDF
职称材料
2
基于TD学习的网格资源预测方法
张树东
曹元大
廖乐键
《计算机工程》
EI
CAS
CSCD
北大核心
2005
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部