期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Tile Coding编码和模型学习的Actor-Critic算法
被引量:
3
1
作者
金玉净
朱文文
+1 位作者
伏玉琛
刘全
《计算机科学》
CSCD
北大核心
2014年第6期239-242,249,共5页
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状...
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。
展开更多
关键词
强化学习
TILE
CODING
Actor-Critic
模型学习
函数逼近
下载PDF
职称材料
连续空间的递归最小二乘行动者—评论家算法
被引量:
2
2
作者
朱文文
金玉净
+1 位作者
伏玉琛
宋绪文
《计算机应用研究》
CSCD
北大核心
2014年第7期1994-1997,2000,共5页
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对...
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
展开更多
关键词
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
下载PDF
职称材料
题名
基于Tile Coding编码和模型学习的Actor-Critic算法
被引量:
3
1
作者
金玉净
朱文文
伏玉琛
刘全
机构
苏州大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2014年第6期239-242,249,共5页
基金
国家自然科学基金(61070122
61373094
+3 种基金
61070223
61103045)
江苏省自然科学基金(BK2009116)
江苏省高校自然科学研究项目(09KJA520002)资助
文摘
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。
关键词
强化学习
TILE
CODING
Actor-Critic
模型学习
函数逼近
Keywords
Reinforcement learning
Tile Coding
Actor-Critic
Model learning
Function approximation
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
连续空间的递归最小二乘行动者—评论家算法
被引量:
2
2
作者
朱文文
金玉净
伏玉琛
宋绪文
机构
苏州大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2014年第7期1994-1997,2000,共5页
基金
国家自然科学基金资助项目(61070122
61070223
+4 种基金
61373094
60970015)
江苏省自然科学基金资助项目(BK2009116)
江苏省高校自然科学研究项目(09KJA520002)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)
文摘
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
关键词
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
Keywords
reinforcement learning
actor-critic method
continuous state and action space
recursive least-squares
policy gradient
Gaussian radial basis functions
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Tile Coding编码和模型学习的Actor-Critic算法
金玉净
朱文文
伏玉琛
刘全
《计算机科学》
CSCD
北大核心
2014
3
下载PDF
职称材料
2
连续空间的递归最小二乘行动者—评论家算法
朱文文
金玉净
伏玉琛
宋绪文
《计算机应用研究》
CSCD
北大核心
2014
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部