-
题名一种新的基于值函数迁移的快速Sarsa算法
被引量:3
- 1
-
-
作者
傅启明
刘全
尤树华
黄蔚
章晓芳
-
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2014年第11期2157-2161,共5页
-
基金
国家自然科学基金(No.61103045
No.61303108)
+2 种基金
江苏省自然科学基金(No.BK2012616)
江苏省高校自然科学研究项目(No.13KJB520020)
吉林大学符号计算与知识工程教育部重点实验室资助(No.93K17012K04)
-
文摘
知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度.基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法——VFT-Sarsa.该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习.将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度.
-
关键词
强化学习
VFT-Sarsa算法
自模拟度量
值函数迁移
-
Keywords
reinforcement learning
VFT-Sarsa algorithm
bisimulation melric
value function transfer
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于值函数迁移的启发式Sarsa算法
被引量:2
- 2
-
-
作者
陈建平
杨正霞
刘全
吴宏杰
徐杨
傅启明
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
苏州大学计算机科学与技术学院
浙江纺织服装职业技术学院信息工程学院
-
出处
《通信学报》
EI
CSCD
北大核心
2018年第8期37-47,共11页
-
基金
国家自然科学基金资助项目(No.61502329
No.61772357
+8 种基金
No.61750110519
No.61772355
No.61702055
No.61672371
No.61602334)
江苏省自然科学基金资助项目(No.BK20140283)
江苏省重点研发计划基金资助项目(No.BE2017663)
江苏省高校自然科学基金资助项目(No.13KJB520020)
苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~
-
文摘
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。
-
关键词
强化学习
值函数迁移
自模拟度量
变分贝叶斯
-
Keywords
reinforcement learning
value function transfer
bisimulation metric
variational Bayes
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-