期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种最大集合期望损失的多目标Sarsa(λ)算法
被引量:
3
1
作者
刘全
李瑾
+2 位作者
傅启明
崔志明
伏玉琛
《电子学报》
EI
CAS
CSCD
北大核心
2013年第8期1469-1473,共5页
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练...
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性.
展开更多
关键词
多目标
自适应Sarsa(λ)
最大集合期望损失
强化学习
机器人足球
下载PDF
职称材料
题名
一种最大集合期望损失的多目标Sarsa(λ)算法
被引量:
3
1
作者
刘全
李瑾
傅启明
崔志明
伏玉琛
机构
苏州大学计算机与科学学院
符号计算与知识工程教育部重点实验室(吉林大学)
出处
《电子学报》
EI
CAS
CSCD
北大核心
2013年第8期1469-1473,共5页
基金
国家自然科学基金(No.61070223
No.61103045
+5 种基金
No.61272005
No.61170020)
江苏省自然科学基金(No.BK2012616)
江苏省高校自然科学研究项目(No.09KJA520002
No.09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室项目(No.93K172012K04)
文摘
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性.
关键词
多目标
自适应Sarsa(λ)
最大集合期望损失
强化学习
机器人足球
Keywords
multiple-goal
adaptive Sarsa(λ)
lost reward of greatest mass
reinforcement learning
robocup 2D
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种最大集合期望损失的多目标Sarsa(λ)算法
刘全
李瑾
傅启明
崔志明
伏玉琛
《电子学报》
EI
CAS
CSCD
北大核心
2013
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部