-
题名结合向前状态预测和隐空间约束的强化学习表示算法
被引量:4
- 1
-
-
作者
项宇
秦进
袁琳琳
-
机构
贵州大学计算机科学与技术学院
贵州开放大学信息工程学院
-
出处
《计算机系统应用》
2022年第11期148-156,共9页
-
基金
国家自然科学基金(61562009)
贵州省科学技术基金(黔科合基础[2020]1Y275)
贵州省科技计划(黔科合基础[2019]1130号)
-
文摘
虽然深度强化学习能够解决很多复杂的控制问题,但是需要付出的代价是必须和环境进行大量的交互,这是深度强化学习所面临的一大挑战.造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征.导致智能体对所处状态理解不足,从而不能正确给状态分配价值.因此,为了让智能体认识所处环境,提高强化学习样本效率,本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning,RPRL).帮助智能体从高维视觉输入中学习并提取状态特征,以此来提高强化学习样本效率.该方法用前向的状态转移损失作为辅助损失,使智能体学习到的特征包含环境转移的相关动态信息.同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束,进一步帮助智能体学习到高维度输入的平滑、规则表示.该方法在DeepMind Control(DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较,都获得了更好的性能.
-
关键词
强化学习
表示方法
状态转移
隐空间约束
连续控制
高维度输入
-
Keywords
reinforcement learning
representation method
state transition
latent space constraint
continuous control
high dimensional input
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-