期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于自适应归一化RBF网络的Q-V值函数协同逼近模型
被引量:
9
1
作者
刘全
肖飞
+3 位作者
傅启明
伏玉琛
周小科
朱斐
《计算机学报》
EI
CSCD
北大核心
2015年第7期1386-1396,共11页
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络...
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能.
展开更多
关键词
强化学习
函数逼近
径向基函数
灾难性扰动
协同逼近
下载PDF
职称材料
题名
基于自适应归一化RBF网络的Q-V值函数协同逼近模型
被引量:
9
1
作者
刘全
肖飞
傅启明
伏玉琛
周小科
朱斐
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
江苏省软件新技术与产业化协同创新中心
出处
《计算机学报》
EI
CSCD
北大核心
2015年第7期1386-1396,共11页
基金
国家自然科学基金(61272005
61070223
+4 种基金
61103045
61070122
61472262)
江苏省自然科学基金(BK2012616)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助~~
文摘
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能.
关键词
强化学习
函数逼近
径向基函数
灾难性扰动
协同逼近
Keywords
reinforcement learning
function approximation
radial basis function
catastrophic interference
collaborative approximation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于自适应归一化RBF网络的Q-V值函数协同逼近模型
刘全
肖飞
傅启明
伏玉琛
周小科
朱斐
《计算机学报》
EI
CSCD
北大核心
2015
9
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部