一种基于强化学习的五子棋博弈程序的设计与实现

Design and implementation of a gobang game program based on reinforcement learning

下载PDF

导出

摘要提出了一种基于蒙特卡洛树和深度神经网络的强化学习方法,用于训练一个具有较高棋力水平的五子棋算法模型。该模型利用蒙特卡洛树搜索在给定的棋盘状态下进行自我对弈,通过策略价值网络评估每个可行的落子位置的先验概率和最终价值,并选择最优的落子方案。实验结果表明该模型具有较强的泛化能力,以此设计的五子棋博弈程序在2022年中国大学生计算机博弈大赛暨中国计算机博弈锦标赛中获得一等奖。 A reinforcement learning method based on Monte Carlo trees and deep neural networks has been proposed to train a gobang algorithm model with high chess power levels.The model uses the Monte Carlo tree search to conduct self play under the given chessboard state,evaluates the prior probability and final value of each feasible drop position through the strategic value net-work,and selects the optimal drop scheme.The experimental results indicate that the model has strong generalization ability,and the Gobang game program designed based on this won first prize in the 2022 China University Computer Game Competition and China Computer Game Championship.

作者刘克曹杨金张根孔维立 Liu Ke;Cao Yang;Jin Zhanggen;Kong Weili(School of Information and Control Engineering,Liaoning Shihua University,Fushun 113001,China;School of Artificial Intelligence and Software,Liaoning Shihua University,Fushun 113001,China)

机构地区辽宁石油化工大学信息与控制工程学院辽宁石油化工大学人工智能与软件学院

出处《现代计算机》 2023年第19期102-105,共4页 Modern Computer

基金辽宁省大学生创新创业训练项目(S202210148038) 辽宁省教育厅科学研究项目(LJKMZ20220754)。

关键词五子棋博弈卷积神经网络强化学习 Gobang game convolutional neural network reinforcement learning

分类号 TP311.56 [自动化与计算机技术—计算机软件与理论] TP18 [自动化与计算机技术—控制理论与控制工程] G891.9 [文化科学—体育学]

引文网络
相关文献

参考文献2

1徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：40
2金张根,曹杨,于红绯,孙才华,刘克.基于ResNet⁃18网络的城市生活垃圾识别方法研究[J].现代计算机,2023,29(2):73-77. 被引量：1

二级参考文献15

1[1]Von NEUMANN J,MORGENSTERN O.Theory of games and economic behavior[M].Princeton:Princeton University Press,1944.
2[2]SHANNON C E.Programming a computer for playing chess[J].Philosophical Magazine,1950,41:256-275.
3[3]TURING A.Digital computers applied to games[C]//Faster than Thought.London,1953:286-295.
4[4]FULLER S H,GASCHING J G,GILLOGLY J J.An analysis of the alpha-beta pruning algorithm[D].Pittsburg:Carnegie-Mellon University,1973.
5[5]KNUTH D E,MOORE R N.An analysis of alpha-beta pruning[J].Artificial Intelligence,1975(6):293-326.
6[6]KORF R.Iterative deepening:an optimal admissible tree search[J].Artificial Intelligence,1985,27(1):97-109.
7[7]ELIZABETH P.Breakthrough of the year:human genetic vaviation[J].Science,2007,318(5858):1842-1849.
8[9]潘丽娟.打扑克人脑险胜电脑[EB/OL].[2007-07-27].http://sports.sohu.com.
9[17]摩尔根与果蝇[EB/OL].[2008-01-06].http://basic.shsmu.edu.cn/jpkc/Marx_philosophy/yxyzx/12.ppt.
10[18]何黎.扑克牌里的博弈之道[EB/OL].[2008-01-06].http://bbs.mso.com.cn/viewthread.php?tid=645174.

共引文献39

1王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：3
2徐志凡,王静文,李媛.基于UCT算法改进的Hex棋博弈系统研究[J].智能计算机与应用,2022,12(3):183-185.
3张雪峰,连莲,徐心和.基于有限自动机的“点点连格”机器博弈系统的建模与分析[J].沈阳建筑大学学报（自然科学版）,2009,25(4):796-801. 被引量：3
4韩逢庆,李翠珠,李为.六子棋博弈的二次估值[J].重庆工学院学报（自然科学版）,2009,23(11):57-60.
5张小川,陈光年,张世强,孙可均,李祖枢.六子棋博弈的评估函数[J].重庆理工大学学报（自然科学）,2010,24(2):64-68. 被引量：7
6张恩海,李彦平,朱俊威.中国象棋多自动机复合模型及其估值方法研究[J].沈阳大学学报,2011,23(2):7-11.
7史晓茹,侯媛彬,张涛.不完全信息博弈的机器人对抗决策[J].智能系统学报,2011,6(2):147-151. 被引量：7
8蔡增玉,方娜,甘勇,贺蕾.智能五子棋博弈关键技术研究[J].郑州轻工业学院学报（自然科学版）,2010,25(6):76-80.
9李淑琴,刘均梅.科技竞赛与学生创新能力的培养[J].新课程学习（中）,2011(7):95-96. 被引量：3
10李淑琴,刘均梅,侯霞.基于科技竞赛的创新人才培养模式研究与实践[J].中国电力教育（中）,2011(12):40-41. 被引量：12

1李霞丽,陈彦东,杨子熠,张焱垠,吴立成.藏族久棋的一种两阶段计算机博弈算法[J].重庆理工大学学报（自然科学）,2022,36(12):110-120. 被引量：3
2李飞,邱虹坤,孙玉霞,蒋宁,王亚杰.基于博弈的程序设计基础课程教学案例设计[J].电脑知识与技术,2023,19(10):142-144.
3张敏.雷锋精神“大思政课”建设的价值意蕴、困境与提升路径[J].世纪桥,2022(10):78-81.
4段鳗倪.高职高专舞蹈教育专业学生核心文化素养研究[J].东方娱乐周刊,2023(9):128-130.
5雷阳,向亚运.临床路径联合案例教学法在神经内科实习生教学中的应用[J].中文科技期刊数据库（引文版）医药卫生,2023(8):57-60.
6张宜放,孟坤.基于点格棋的UCT算法研究与分析[J].智能计算机与应用,2020(4):27-31. 被引量：3
7苗莎.计算机博弈中搜索算法的研究与改进[J].中国新通信,2023,25(10):61-63.
8李卢祎,陶小军,陈杨,覃菲茵,张珮,无.大藤峡水利枢纽落子成势辉映西江[J].中国水利,2023(21).
9商乾,姜盛鑫,陆宏伟,施帆.面向试验鉴定的航天产品试验标准适用性评估模型与方法研究[J].航天工业管理,2023(9):14-18.
10许宏鑫,吴志周,梁韵逸.基于强化学习的自动驾驶汽车路径规划方法研究综述[J].计算机应用研究,2023,40(11):3211-3217. 被引量：2

现代计算机

2023年第19期

浏览历史

内容加载中请稍等...

一种基于强化学习的五子棋博弈程序的设计与实现

参考文献2

二级参考文献15

共引文献39

相关作者

相关机构

相关主题

浏览历史