-
题名带最大熵修正的行动者评论家算法
被引量:5
- 1
-
-
作者
姜玉斌
刘全
胡智慧
-
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
-
出处
《计算机学报》
EI
CSCD
北大核心
2020年第10期1897-1908,共12页
-
基金
国家自然科学基金项目(61772355,61702055,61472262,61502323,61502329)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
江苏高校优势学科建设工程资助项目资助.
-
文摘
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性.
-
关键词
强化学习
深度学习
行动者评论家算法
最大熵
策略梯度
-
Keywords
reinforcement learning
deep learning
actor-critic algorithm
maximum entropy
policy gradient
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-