期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
平均奖赏强化学习算法研究
被引量:
38
1
作者
高阳
周如益
+1 位作者
王皓
曹志新
《计算机学报》
EI
CSCD
北大核心
2007年第8期1372-1378,共7页
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证...
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.
展开更多
关键词
平均奖赏强化
学习
性能势
g-学习
马尔可夫决策过程
半马尔可夫决策过程
下载PDF
职称材料
一种结合Tile Coding的平均奖赏强化学习算法
2
作者
王巍巍
陈兴国
高阳
《模式识别与人工智能》
EI
CSCD
北大核心
2008年第4期446-452,共7页
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参...
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.
展开更多
关键词
强化
学习
马尔可夫决策过程(MDP)
R-
学习
g-学习
平均奖赏
原文传递
题名
平均奖赏强化学习算法研究
被引量:
38
1
作者
高阳
周如益
王皓
曹志新
机构
南京大学软件新技术国家重点实验室
江苏省智能卡工程技术研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2007年第8期1372-1378,共7页
基金
国家自然科学基金(60475026)
国家杰出青年科学基金(60325207)资助~~
文摘
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.
关键词
平均奖赏强化
学习
性能势
g-学习
马尔可夫决策过程
半马尔可夫决策过程
Keywords
average reward reinforcement learning
performance potential
g-
learning
Markovdecision process
semi-Markov decision process
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种结合Tile Coding的平均奖赏强化学习算法
2
作者
王巍巍
陈兴国
高阳
机构
南京大学计算机科学与技术系计算机软件新技术国家重点实验室
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2008年第4期446-452,共7页
基金
国家自然科学基金(No.60775046)
国家自然科学基金委创新研究群体科学基金(No.60721002)资助
文摘
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.
关键词
强化
学习
马尔可夫决策过程(MDP)
R-
学习
g-学习
平均奖赏
Keywords
Reinforcement Learning, Markov Decision Process ( MDP), R-Learning,
g-
Learning,Average Reward
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
平均奖赏强化学习算法研究
高阳
周如益
王皓
曹志新
《计算机学报》
EI
CSCD
北大核心
2007
38
下载PDF
职称材料
2
一种结合Tile Coding的平均奖赏强化学习算法
王巍巍
陈兴国
高阳
《模式识别与人工智能》
EI
CSCD
北大核心
2008
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部