-
题名一种最大集合期望损失的多目标Sarsa(λ)算法
被引量:3
- 1
-
-
作者
刘全
李瑾
傅启明
崔志明
伏玉琛
-
机构
苏州大学计算机与科学学院
符号计算与知识工程教育部重点实验室(吉林大学)
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2013年第8期1469-1473,共5页
-
基金
国家自然科学基金(No.61070223
No.61103045
+5 种基金
No.61272005
No.61170020)
江苏省自然科学基金(No.BK2012616)
江苏省高校自然科学研究项目(No.09KJA520002
No.09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室项目(No.93K172012K04)
-
文摘
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性.
-
关键词
多目标
自适应Sarsa(λ)
最大集合期望损失
强化学习
机器人足球
-
Keywords
multiple-goal
adaptive Sarsa(λ)
lost reward of greatest mass
reinforcement learning
robocup 2D
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于Moodle构建校园网络课程
- 2
-
-
作者
张佳磊
-
机构
苏州大学计算机科学学院
-
出处
《内江科技》
2010年第9期55-55,共1页
-
文摘
本文从高校对网络教学系统的迫切性出发,分析了Moodle的优点以及可以提供的功能,提出利用开源软件构建高校网络教学系统,为学校提供一种较经济且实用的网络平台建设方案。
-
关键词
MOODLE
网络教学
教学功能
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-