-
题名增强型深度确定策略梯度算法
被引量:8
- 1
-
-
作者
陈建平
何超
刘全
吴宏杰
胡伏原
傅启明
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室
苏州大学计算机科学与技术学院
-
出处
《通信学报》
EI
CSCD
北大核心
2018年第11期106-115,共10页
-
基金
国家自然科学基金资助项目(No.61502329
No.61772357
+9 种基金
No.61750110519
No.61772355
No.61702055
No.61672371
No.61602334
No.61502323)
江苏省自然科学基金资助项目(No.BK20140283)
江苏省重点研发计划基金资助项目(No.BE2017663)
江苏省高校自然科学研究基金资助项目(No.13KJB520020)
苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~
-
文摘
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率。
-
关键词
深度强化学习
样本排序
自模拟度量
时间差分误差
-
Keywords
deep reinforcement learning
sample ranking
bisimulation metric
temporal difference error
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种新的基于值函数迁移的快速Sarsa算法
被引量:3
- 2
-
-
作者
傅启明
刘全
尤树华
黄蔚
章晓芳
-
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2014年第11期2157-2161,共5页
-
基金
国家自然科学基金(No.61103045
No.61303108)
+2 种基金
江苏省自然科学基金(No.BK2012616)
江苏省高校自然科学研究项目(No.13KJB520020)
吉林大学符号计算与知识工程教育部重点实验室资助(No.93K17012K04)
-
文摘
知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度.基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法——VFT-Sarsa.该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习.将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度.
-
关键词
强化学习
VFT-Sarsa算法
自模拟度量
值函数迁移
-
Keywords
reinforcement learning
VFT-Sarsa algorithm
bisimulation melric
value function transfer
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于值函数迁移的启发式Sarsa算法
被引量:2
- 3
-
-
作者
陈建平
杨正霞
刘全
吴宏杰
徐杨
傅启明
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
苏州大学计算机科学与技术学院
浙江纺织服装职业技术学院信息工程学院
-
出处
《通信学报》
EI
CSCD
北大核心
2018年第8期37-47,共11页
-
基金
国家自然科学基金资助项目(No.61502329
No.61772357
+8 种基金
No.61750110519
No.61772355
No.61702055
No.61672371
No.61602334)
江苏省自然科学基金资助项目(No.BK20140283)
江苏省重点研发计划基金资助项目(No.BE2017663)
江苏省高校自然科学基金资助项目(No.13KJB520020)
苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~
-
文摘
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。
-
关键词
强化学习
值函数迁移
自模拟度量
变分贝叶斯
-
Keywords
reinforcement learning
value function transfer
bisimulation metric
variational Bayes
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-