MuZero算法在多种棋类游戏中的表现“超越人类”

下载PDF

导出

摘要一直以来,人工智能领域的科学家们都想构建出具备规划能力的智能体。最近,DeepMind的研究人员提出了一种称之为MuZero的算法。该算法结合了基于高性能规划和无模型强化学习算法两种方法的优点,在不具备任何底层动态知识和游戏规则的情况下,通过结合基于树的搜索和学得模型,在国际象棋、日本将棋、围棋等棋类游戏中的性能表现可媲美AlphaZero,超越人类。

作者编辑部(编译)

机构地区不详

出处《机器人产业》 2019年第6期21-25,共5页 Robot Industry

关键词人工智能强化学习算法智能体动态知识棋类游戏游戏规则国际象棋

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

1恒白.单线跳棋[J].数学大王（超级脑力）,2019(12):36-39.
2王萍.创意无限的幼儿自制游戏棋[J].科学大众（智慧教育）,2019(10):97-98. 被引量：1
3谷歌：“通用棋类AI”AlphaZero问世[J].中国信息界,2017,0(6):53-53.
4许冠亚,耿玲娜,邵平,赵肖旭,靳栋曼,谢添.基于深度强化学习的微电网储能调度策略研究[J].企业科技与发展,2019,0(11):59-60. 被引量：1
5蔡璐(编译).磁编程“折纸”机器人[J].科学世界,2019,0(12):4-7.
6陈建平,陈其强,傅启明,高振,吴宏杰,陆悠.基于生成对抗网络的最大熵逆强化学习[J].计算机工程与应用,2019,55(22):119-126. 被引量：3
7由小川.规则统一新起点[J].围棋天地,2018,0(22):91-91.
8梁桂花.指导构图，培养学生统筹规划能力[J].小学科学,2019(12):351-351.
9薛永红,王洪鹏.机器下棋的历史与启示——从“深蓝”到AlphaZero[J].科技导报,2019,37(19):87-96. 被引量：9
10王佳骏,林承勋,陈瑾,李文轩.基于强化学习的通信网络入侵自适应检测方法[J].信息技术,2019,43(11):24-27. 被引量：8

机器人产业

2019年第6期

浏览历史

内容加载中请稍等...

MuZero算法在多种棋类游戏中的表现“超越人类”

相关作者

相关机构

相关主题

浏览历史