一种自学习的智能五子棋算法的设计与实现被引量：3

Design and Implementation of a Self-learning Intelligent Gobang Algorithm

下载PDF

导出

摘要强化学习长期以来的一个目标是创造一个能够在具有挑战性的领域,以超越人类的精通程度学习的算法.基于蒙特卡洛树搜索与深度神经网络设计一种自学习智能五子棋算法,无需人类知识,从零开始学习.其中深度神经网络是由32个卷积层组成的深度残差网络;蒙特卡洛树搜索可根据多次模拟博弈的结果预测最优的移动方案.将五子棋规则与蒙特卡洛树搜索和深度神经网络相结合,蒙特卡洛树搜索使用深度神经网络评估落子位置和选择移动,增强树的搜索强度,提高落子质量,优化自对弈迭代.通过蒙特卡洛树搜索进行自对弈,训练一个神经网络来预测落子选择以及游戏的赢家.经过两天的训练,该算法的埃洛等级分已经达到4000分,远远高于普通人类水平. Reinforcement learning has long had the goal of creating an algorithm that can learn in challenging areas beyond human mastery.Based on monte carlo search tree and deep neural network,a self-learning intelligent gobang algorithm is designed.The deep neural network is a deep residual network composed of 32 convolutional layers.The monte carlo search tree can predict the best moving scheme based on the results of multiple simulated games.With the combination of gobang rules with monte carlo search tree and deep neural network,monte carlo search tree uses deep neural network to evaluate the position and select the movement of the fallen pieces,enhance the search intensity of the tree,improve the quality of the fallen pieces,and optimize the iteration of self-playing.Playing chess through monte carlo search tree,training a neural network to predict the loser’s choice and the winner of the game.After two days of training,the algorithm’s Elo rating system has reached 4000,well above the average human level.

作者李大舟沈雪雁高巍张小明孟智慧 LI Da-zhou;SHEN Xue-yan;GAO Wei;ZHANG Xiao-ming;MENG Zhi-hui(College of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang 110142,China;China Mobile Group Design Institute Co.LTD.Hebei Branch,Taiyuan 030000,China)

机构地区沈阳化工大学计算机科学与技术学院中国移动集团设计院有限公司河北分公司

出处《小型微型计算机系统》 CSCD 北大核心 2020年第6期1169-1175,共7页 Journal of Chinese Computer Systems

基金辽宁省教育厅一般科研项目(LQ2017008,L2016011)资助辽宁省科技厅博士后启动项目(201601196)资助.

关键词强化学习蒙特卡洛树搜索深度神经网络深度残差网络五子棋埃洛等级分 reinforcement learning monte carlo search tree deep neural network deep residual network gobang Elo rating system

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1徐西建,王子磊,奚宏生.基于深度强化学习的流媒体边缘云会话调度策略[J].计算机工程,2019,45(5):237-242. 被引量：8
2宋万洋.基于α-β剪枝树算法的安卓五子棋程序设计与实现[J].现代信息科技,2019,3(11):92-93. 被引量：3
3周强,徐宏伟,陈逸,孙玉宝.随机多选择残差网络集成的遥感图像分类算法[J].小型微型计算机系统,2019,40(9):1946-1950. 被引量：6

二级参考文献6

1李军,倪宏,王玲芳,陈君.流媒体系统中基于请求迁移的任务调度算法[J].吉林大学学报（工学版）,2015,45(3):938-945. 被引量：2
2毛丽民,卢振利,刘叔军,彭伟伟,李亮.五子棋对弈机器人移动平台的研究[J].微特电机,2017,45(1):9-14. 被引量：1
3周洋,邓莉,谢煜.一种五子棋博弈算法的分析[J].现代计算机,2017,23(7):8-10. 被引量：6
4董慧颖,王杨.多种搜索算法的五子棋博弈算法研究[J].沈阳理工大学学报,2017,36(2):39-43. 被引量：7
5姜同全,王子磊,奚宏生.基于动态阈值分配的流媒体边缘云会话迁移策略[J].计算机工程,2017,43(1):55-60. 被引量：4
6温暖,刘正华,祝令谱,孙扬.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159. 被引量：17

共引文献14

1欧俊臣,沙玲,杨淞文.基于MCTS和卷积神经网络的五子棋策略研究[J].软件,2020,41(4):160-164. 被引量：2
2祁文凯,桑国明.基于延迟策略的最大熵优势演员评论家算法[J].小型微型计算机系统,2020,41(8):1656-1664. 被引量：1
3李闻斌,黄晟,庞璐宁.基于深度强化学习的流媒体边缘云会话调度策略[J].中国新通信,2021,23(3):133-134. 被引量：1
4王婕,罗静蕊,岳广德.一种改进的多尺度融合并行稠密残差去噪网络[J].小型微型计算机系统,2021,42(4):798-804. 被引量：6
5张晶,蔡志全,韩永成,高丹.基于深度强化学习技术的变电站巡检机器人的路径规划研究[J].冶金动力,2021(3):4-7. 被引量：3
6李菊文.基于ETL和SVM的融媒体平台数据采集与分析技术研究[J].电子设计工程,2021,29(15):151-155. 被引量：2
7曹童杰,李丕范,刘中国.基于SDN架构的工业互联网多层多址边缘计算[J].邮电设计技术,2021(7):19-23. 被引量：1
8黄孝斌,高雪,钱利军.基于云计算平台的遥感图像特征选择与优化研究[J].微型电脑应用,2021,37(8):28-31. 被引量：1
9王振东,刘思航.多尺度特征融合技术的建筑寿命分析方法[J].建筑节能（中英文）,2021,49(12):126-131.
10刘宇,张聪,李涛.强化学习A3C算法在电梯调度中的建模及应用[J].计算机工程与设计,2022,43(1):196-202. 被引量：8

同被引文献24

1徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：170
2雷蕾,尚丽娜,张列航.空战目标威胁排序与目标分配算法[J].电光与控制,2010,17(4):38-40. 被引量：17
3王贝,杨世荣,钮小林.基于不确定语言多属性决策的目标威胁度排序[J].火力与指挥控制,2008,33(S2):169-171. 被引量：5
4沈宏伟,邵堃,张阳洋,霍星,刘宗田.基于朴素贝叶斯的信任决策模型[J].小型微型计算机系统,2018,39(2):275-279. 被引量：8
5赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：60
6尹儒,门昌骞,王文剑,刘澍泽.模型决策树：一种决策树加速算法[J].模式识别与人工智能,2018,31(7):643-652. 被引量：14
7艾科,马国帅,杨凯凯,钱宇华.一种基于集成学习的科研合作者潜力预测分类方法[J].计算机研究与发展,2019,56(7):1383-1395. 被引量：10
8赵新秋,杨冬冬,贺海龙,段思雨.基于深度学习的人体行为识别研究[J].高技术通讯,2020,30(5):471-479. 被引量：6
9张小川,王宛宛,彭丽蓉.一种军棋机器博弈的多棋子协同博弈方法[J].智能系统学报,2020,15(2):399-404. 被引量：5
10李枫,王彦博.基于专家系统与DAN网络的围棋局面判断算法[J].北华大学学报（自然科学版）,2020,21(4):556-560. 被引量：1

引证文献3

1高虹雷,门昌骞,王文剑.一种特征值区间划分的模型决策树加速算法[J].小型微型计算机系统,2021,42(6):1136-1143. 被引量：4
2刘溜,张小川,彭丽蓉,田震,万家强,任越.一种结合策略价值网络的五子棋自博弈方法研究[J].重庆理工大学学报（自然科学）,2022,36(12):129-135. 被引量：3
3袁婷帅,冯宇,李永强.结合先验知识的多智能体博弈对抗研究[J].高技术通讯,2024,34(3):256-264.

二级引证文献7

1谢鑫,张贤勇,王旋晔,唐鹏飞.变精度邻域等价粒的邻域决策树构造算法[J].计算机应用,2022,42(2):382-388. 被引量：4
2钱叶牛,赵薇,张鹏程,王仕杰.基于极限学习机与小波变换的配电网故障定位[J].信息技术,2023,47(3):177-183. 被引量：1
3陈翀旻,余泓夫,朱迪,唐超,符华,莫梁媛.基于k-means聚类算法与多维特征融合的群体划分模型[J].粘接,2023,50(11):193-196. 被引量：1
4张成玉,刘宁.基于决策树分类思想的线上思政教学课程推荐方法设计[J].现代科学仪器,2024,41(2):180-185.
5徐长明,周其磊,王一川,王栋年,金张根,王军伟.维护全局博弈图的蒙特卡洛图搜索[J].重庆理工大学学报（自然科学）,2024,38(5):130-136.
6王栋年,王军伟,薛世超,汪超,徐长明.基于深度强化学习的双置换表优化算法研究[J].重庆理工大学学报（自然科学）,2024,38(5):145-153.
7Xiali Li,Bo Liu,Zhi Wei,Zhaoqi Wang,Licheng Wu.Tjong:A transformer‐based Mahjong AI via hierarchical decision‐making and fan backward[J].CAAI Transactions on Intelligence Technology,2024,9(4):982-995.

1中国职业围棋棋手等级分[J].围棋天地,2020(12):76-76.
2魏书伟,曾上游,潘兵,王新娇.基于多样化结构的轻量型卷积神经网络设计[J].现代电子技术,2020,43(12):50-54. 被引量：2
3郑焕,邹樱.新高考选考科目等级赋分方式的衍变[J].教育导刊（上半月）,2020(5):51-57. 被引量：3
4施敏虎,栗云鹏,庄曙东,符正帆,王齐鑫.基于OpenMV的智能搬运车型机器人的设计[J].机械工程师,2020,0(2):20-22. 被引量：17
5倪维健,郭浩宇,刘彤,曾庆田.基于多头自注意力神经网络的购物篮推荐方法[J].数据分析与知识发现,2020,4(2):68-77. 被引量：7
6黄信兵,陈超越.基于PLC技术的指甲钳体外观缺陷检测系统研究[J].液压与气动,2020,44(5):138-144. 被引量：4
7王海旭,孙同文,王栋,韩冰,赵颖颖,孙俊一,赵瑞巧,宋来君.一种早期血流感染预测模型的构建[J].中华实验外科杂志,2020,37(4):769-771. 被引量：1
8杨世宏,陈堂发,张睿.隐私风险估算框架下用户位置信息敏感性认知[J].兰州大学学报（社会科学版）,2019,47(4):8-16. 被引量：6
9杨瑞刚,崔雅晋.高校移动社交媒体用户生成共青团知识内容的行为研究[J].长治学院学报,2020,37(1):75-81.
10蒋雨露,魏愈宋,刘真,方宇荣,周文波,雷国元.含重金属烧结机机头灰的综合利用研究[J].烧结球团,2020,45(3):55-60. 被引量：4

小型微型计算机系统

2020年第6期

浏览历史

内容加载中请稍等...

一种自学习的智能五子棋算法的设计与实现被引量：3

参考文献3

二级参考文献6

共引文献14

同被引文献24

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种自学习的智能五子棋算法的设计与实现 被引量：3

参考文献3

二级参考文献6

共引文献14

同被引文献24

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种自学习的智能五子棋算法的设计与实现被引量：3