期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种最大集合期望损失的多目标Sarsa(λ)算法 被引量:3
1
作者 刘全 李瑾 +2 位作者 傅启明 崔志明 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2013年第8期1469-1473,共5页
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练... 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 展开更多
关键词 多目标 自适应Sarsa(λ) 最大集合期望损失 强化学习 机器人足球
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部