基于深度强化学习的双置换表优化算法研究

Two-level transposition table optimization algorithm based on deep reinforcement learning

下载PDF

导出

摘要基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军。这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索。为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证明可提高搜索效率。在此基础上,提出一种新的基于置换表的方法——基于深度强化学习的双置换表优化算法。该方法使用不同的替换策略管理双层置换表,并将六子棋的两步落子解耦为2个独立的神经网络。这不仅减小了动作空间规模,也更易于神经网络训练。以六子棋为例进行的实验结果表明,在有限的计算资源下,该方法能显著提升棋局哈希命中率和程序棋力水平。 Computer game programs based on deep reinforcement learning,such as AlphaGo,have beaten human world champions in the game of Go.These algorithms utilize learnable value neural networks and policy neural networks to guide the exploration process of Monte Carlo Tree Search.Various enhancement methods have been proposed to improve the search performance of Monte Carlo trees,among which the transposition table has been proven to enhance search efficiency.Building upon this foundation,this paper introduces a novel method,the two-level transposition table optimization algorithm based on deep reinforcement learning.This method manages two level transposition tables using distinct replacement strategies and decouples the two-step moves of Connect6 into two independent neural networks.This not only reduces the scale of the action space but also simplifies neural network training.Our experimental results using Connect6 as an example demonstrate this approach significantly enhances the program’s playing strength under limited computational resources.

作者王栋年王军伟薛世超汪超徐长明 WANG Dongnian;WANG Junwei;XUE Shichao;WANG Chao;XU Changming(Graduate,Northeastern University,Qinhuangdao 066004,China;School of Computer and Communication Engineering,Northeastern University at Qinhuangdao,Qinhuangdao 066004,China)

机构地区东北大学研究生院东北大学秦皇岛分校计算机与通信工程学院

出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2024年第5期145-153,共9页 Journal of Chongqing University of Technology：Natural Science

基金河北省自然科学基金面上项目(F2023501006)。

关键词深度强化学习置换表计算机博弈 AlphaGo 蒙特卡洛树 deep reinforcement learning transposition table computer game AlphaGo MCTS

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1吴立成,吴启飞,钟宏鸣,李霞丽.“拱猪”游戏的深度蒙特卡洛博弈算法[J].重庆理工大学学报（自然科学）,2022,36(12):121-128. 被引量：2
2李淑琴,冯浩东.牌型预测与蒙特卡洛模拟结合的麻将博弈策略[J].重庆理工大学学报（自然科学）,2022,36(12):148-154. 被引量：6
3王亚杰,祁冰枝,张云博,丁傲冬.结合神经网络的改进UCT在国际跳棋中的应用[J].重庆理工大学学报（自然科学）,2021,35(7):259-265. 被引量：5
4刘溜,张小川,彭丽蓉,田震,万家强,任越.一种结合策略价值网络的五子棋自博弈方法研究[J].重庆理工大学学报（自然科学）,2022,36(12):129-135. 被引量：3
5李霞丽,陈彦东,杨子熠,张焱垠,吴立成.藏族久棋的一种两阶段计算机博弈算法[J].重庆理工大学学报（自然科学）,2022,36(12):110-120. 被引量：3

二级参考文献28

1周明明,高航,赵国安.UCT算法在计算机围棋中的应用与改进[J].数据采集与处理,2012,27(S2):330-335. 被引量：3
2徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：41
3焦尚彬,刘丁.博弈树置换表启发式算法研究[J].计算机工程与应用,2010,46(6):42-45. 被引量：7
4张小川,陈光年,张世强,孙可均,李祖枢.六子棋博弈的评估函数[J].重庆理工大学学报（自然科学）,2010,24(2):64-68. 被引量：7
5张明亮,吴俊,李凡长.五子棋机器博弈系统评估函数的设计[J].计算机应用,2012,32(7):1969-1972. 被引量：9
6张小川,唐艳,梁宁宁.采用时间差分算法的九路围棋机器博弈系统[J].智能系统学报,2012,7(3):278-282. 被引量：5
7陆鑫,高阳,李宁,陈世福.基于神经网络的强化学习算法研究[J].计算机研究与发展,2002,39(8):981-985. 被引量：16
8刘子正,卢超,张瑞友.基于蒙特卡罗模拟和Z检验的“2048”游戏并行优化算法[J].小型微型计算机系统,2016,37(3):562-566. 被引量：2
9郑昌松,贾丽娟,权贺,王彪.基于西洋跳棋的博弈程序研究[J].哈尔滨理工大学学报,2016,21(3):24-28. 被引量：6
10常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：426

共引文献9

1刘溜,张小川,彭丽蓉,田震,万家强,任越.一种结合策略价值网络的五子棋自博弈方法研究[J].重庆理工大学学报（自然科学）,2022,36(12):129-135. 被引量：3
2李淑琴,李奕.一种多重优先经验回放的麻将游戏数据利用方法[J].重庆理工大学学报（自然科学）,2022,36(12):162-169. 被引量：2
3徐子怡,林富生,宋志峰,徐自立,余联庆.基于QT的武汉麻将游戏起牌设计[J].现代信息科技,2023,7(23):83-88.
4张小川,杨小漫,涂飞,王鑫,严明珠,梁渝卓.融合经验知识与深度强化学习的久棋Alpha-Beta算法优化研究[J].重庆理工大学学报（自然科学）,2024,38(5):115-120.
5徐长明,周其磊,王一川,王栋年,金张根,王军伟.维护全局博弈图的蒙特卡洛图搜索[J].重庆理工大学学报（自然科学）,2024,38(5):130-136.
6代君学,李霞丽,刘博,王昭琦.国标麻将的多尺度骨干神经网络模型[J].重庆理工大学学报（自然科学）,2024,38(5):137-144.
7衣御寒,王亚杰,吴燕燕,刘松,张兴慧,蒋传禹.结合A2C和手牌估值方法的麻将博弈研究[J].重庆理工大学学报（自然科学）,2024,38(5):154-161.
8刘航,丁濛,李淑琴.基于多模型堆叠与特征提取的二打一叫牌算法研究[J].重庆理工大学学报（自然科学）,2024,38(5):162-169.
9Xiali Li,Bo Liu,Zhi Wei,Zhaoqi Wang,Licheng Wu.Tjong:A transformer‐based Mahjong AI via hierarchical decision‐making and fan backward[J].CAAI Transactions on Intelligence Technology,2024,9(4):982-995.

1李飞,邱虹坤,孙玉霞,蒋宁,王亚杰.基于博弈的程序设计基础课程教学案例设计[J].电脑知识与技术,2023,19(10):142-144.
2刘克,曹杨,金张根,孔维立.一种基于强化学习的五子棋博弈程序的设计与实现[J].现代计算机,2023,29(19):102-105. 被引量：1
3王碧蓉.治理现代化背景下的城市公共空间现状及问题解析[J].中文科技期刊数据库（引文版）工程技术,2019(2):300-301.
4王子腾.国土空间规划背景下的城乡规划发展探讨[J].中文科技期刊数据库（引文版）工程技术,2024(4):0121-0124.
5苗莎.计算机博弈中搜索算法的研究与改进[J].中国新通信,2023,25(10):61-63.
6李霞丽,陈彦东,杨子熠,张焱垠,吴立成.藏族久棋的一种两阶段计算机博弈算法[J].重庆理工大学学报（自然科学）,2022,36(12):110-120. 被引量：3
7张一帆,宋威.极限学习决策网络指导的多目标粒子群算法[J].计算机科学与探索,2024,18(6):1513-1525.
8李宇.水利水电施工中机电安装出现的问题与对策[J].中文科技期刊数据库（引文版）工程技术,2019(1):180-181.
9薛晨洋.城市轨道交通地下空间开发的思考[J].中文科技期刊数据库（引文版）工程技术,2017(1):104-104.
10周亦璟,袁红,钟沐成,周斯翔.全民健身视角下老城区公共体育服务空间布局及优化策略:以成都市金牛区为例[J].华中农业大学学报,2024,43(3):220-229. 被引量：1

重庆理工大学学报（自然科学）

2024年第5期

浏览历史

内容加载中请稍等...

基于深度强化学习的双置换表优化算法研究

参考文献5

二级参考文献28

共引文献9

相关作者

相关机构

相关主题

浏览历史