基于分层强化学习的雅达利游戏决策算法

Decision Making Algorithm Based on Hierarchical Reinforcement Learning for The Atari Game

下载PDF

导出

摘要随着机器学习的发展,深度强化学习凭借着能够对大规模输入进行自主探索试错从而学习到最优策略的优势成为研究热点。然而,传统的强化学习在针对复杂的决策任务时面临着维度灾难,并且无法解决稀疏奖励问题。文章提出一种融合Manager-Worker层次结构与强化学习经典算法深度Q网络(DeepQNetwork,DQN)的分层强化学习算法,在雅达利游戏环境中训练,使智能体能够在“环境-动作-反馈”中学习最优策略。实验表明,该方法在雅达利游戏的复杂决策中更有效,并且超过人类玩家的平均水平。 With the development of machine learning, deep reinforcement learning has become a research hotspot because of its advantages of being able to independently explore and try the errors of large-scale input, so as to learn the optimal strategy. However, the traditional reinforcement learning is faced with dimensional disaster when dealing with complex decision-making tasks, and it can’t solve the problem of sparse reward. In this paper, a hierarchical reinforcement learning algorithm, which combines the Manager-Worker hierarchical structure with the classical reinforcement learning algorithm Deep Q Network(DQN), is proposed. It is trained in Atari game environment,so that agents can learn the best strategy in "environment-action-feedback". The experiment shows that this method is more effective in complex decision-making of Atari games, and exceeds the average level of human players.

作者周婉姚溪子肖雨薇刘艳芳 ZHOU Wan;YAO Xizi;XIAO Yuwei;LIU Yanfang(Computer and Information Engineering College,Hubei University,Wuhan Hubei 430000,China)

机构地区湖北大学计算机与信息工程学院

出处《信息与电脑》 2022年第20期97-99,共3页 Information & Computer

基金湖北省大学生创新创业训练计划基金资助项目(项目编号:202110512065) 湖北大学大学生创新创业训练计划基金资助项目(项目编号:202110512086)。

关键词分层强化学习(HRL) 深度Q网络(DQN) 雅达利游戏 Hierarchical Reinforcement Learning(HRL) Deep Q Network(DQN) Atari game

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

1陆春帆,刘爽,周洲.一种新型存算一体电路设计与研究[J].科学技术创新,2022(36):91-94.
2新书推荐[J].领导文萃,2022(10):144-144.
3陈家璇.原子时代的神像——达利《利加特港的圣母》创作探析[J].美与时代（美学）（下）,2022(12):71-74.
4方义秋,刘飞,葛君伟.基于Mogrifier LSTM的序列标注关系抽取方法[J].计算机工程,2022,48(10):81-87. 被引量：2
5Thomas Meyer-Jander.灵活改造强大物流中心[J].现代制造,2022(8):60-61.
6董金福.基于认知无线电的频谱感知技术经典算法研究[J].通信与信息技术,2023(1):16-20. 被引量：3
7赵鹤亮,王爱生,王军,张新妹.小肠CT造影对克罗恩病的诊断及活动性评估的价值研究[J].实用放射学杂志,2022,38(12):1994-1997. 被引量：5
8魏若君,蔡雨孜,黄为钧,郑启艳,刘玉宁,刘伟敬.雷公藤多苷片联合糖皮质激素治疗难治性肾病综合征的Meta分析[J].中国中西医结合肾病杂志,2022,23(12):1100-1104. 被引量：8
9贾舒媛,黄丽,罗冬梅.多因素影响下的护士排班优化研究[J].攀枝花科技与信息,2022,47(4):16-21.
10王丽丽.基于二进制空间分区树的井下巷道相交建模方法[J].煤矿安全,2022,53(12):138-143. 被引量：2

信息与电脑

2022年第20期

浏览历史

内容加载中请稍等...

基于分层强化学习的雅达利游戏决策算法

相关作者

相关机构

相关主题

浏览历史