基于强化学习的海克斯棋博弈算法研究与实现被引量：3

Research and implementation of Hex game based on reinforcement learning

下载PDF

导出

摘要本文旨在研究如何将强化学习模型合理地应用在海克斯棋博弈算法中,并给出程序实现方案。以蒙特卡洛树搜索生成数据集训练卷积神经网络的方式,使得模型能够在不断自我对弈的过程中,修正自身选择动作的策略,更新模型参数,从而达到提升棋力的目的。实验结果表明,通过强化学习算法能够准确地评估海克斯棋的局面,并有效地选择有利的落子位置,使得海克斯棋博弈系统获得高质量的决策能力。 The purpose of this paper is to study how to apply reinforcement learning model to the algorithm of Hex game reasonably,and give the program implementation scheme.In this way,the convolution neural network can be trained by using the data set generated by the Monte Carlo tree search,so that the model can enhance chess skills by modifying the strategy of its own choice of action and updating the model parameters in the process of continuous self playing.The experimental results show that the reinforcement learning algorithm can accurately evaluate the situation of Hex game,and effectively select a favorable moves,so that Hex game system gains high-quality decision-making ability.

作者张芃芃孟坤杨震栋 ZHANG Pengpeng;MENG Kun;YANG Zhendong(Computer School,Beijing Information Science&Technology University,Beijing 100192,China)

机构地区北京信息科技大学计算机学院

出处《智能计算机与应用》 2020年第3期142-145,共4页 Intelligent Computer and Applications

基金北京信息科技大学2019年促进高校内涵发展-大学生科研训练项目(5101923400)。

关键词强化学习蒙特卡洛树搜索海克斯棋计算机博弈 reinforcement learning Monte-Carlo tree search Hex game computer game

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1周志华.《机器学习》[J].航空港,2018,0(2):94-94. 被引量：9

共引文献8

1徐娟,卞良.基于SVM的中文垃圾邮件预测系统研究[J].数字技术与应用,2020,38(1):38-39. 被引量：5
2李云菊,牛贵敏.数据挖掘在银行零售业的应用[J].计算机时代,2020,0(5):34-37.
3靳旦,唐伟.基于组合支持向量回归的排污企业生产识别[J].四川电力技术,2020,43(3):29-32.
4郑守红,毕果,苏史博,刘杉.基于连续隐马尔可夫模型的砂轮磨削性能退化评估[J].厦门大学学报（自然科学版）,2021,60(6):1064-1070. 被引量：3
5宋允轩,马修远,王少辰,郝恩魁.机器学习在心力衰竭疾病预测中应用的研究进展[J].中国循证心血管医学杂志,2023,15(1):118-119. 被引量：1
6刘玮,张永亮,程旭.基于深度强化学习的人机智能对抗综述[J].指挥信息系统与技术,2023,14(2):28-37.
7管康萍,冯正康,马小艳,张良俊,崔杰,叶舟.一种基于航迹特征的无人机与飞鸟目标雷达识别方法[J].上海航天（中英文）,2024,41(1):130-136.
8王俊鹏,杨智淇,庞旭静.BP神经网络判别模型在中关铁矿突水水源预测中的应用[J].地下水,2024,46(2):5-8.

同被引文献7

1李霞丽,吴立成,李永集.基于棋型的藏族“久”棋计算机博弈研究[J].智能系统学报,2018,13(4):577-583. 被引量：4
2张志礼,丁濛,段金龙,罗锋骏,勾亮亮.基于电阻电路评估策略的分阶段海克斯棋博弈方法的研究[J].智能计算机与应用,2019,9(2):212-214. 被引量：2
3雷捷维,王嘉旸,任航,闫天伟,黄伟.基于Expectimax搜索与Double DQN的非完备信息博弈算法[J].计算机工程,2021,47(3):304-310. 被引量：7
4朱良双,王静文,李媛.基于UCT搜索算法的点格棋博弈系统研究[J].智能计算机与应用,2021,11(2):129-131. 被引量：3
5周子龙.博弈搜索树算法的实现及其优化[J].科学技术创新,2021(18):108-110. 被引量：3
6邓银莹,常郝.并行思想的六子棋博弈搜索算法设计[J].电子世界,2021(10):146-147. 被引量：3
7彭之军.计算机博弈算法在黑白棋中的应用[J].现代信息科技,2021,5(17):73-77. 被引量：1

引证文献3

1郑博宇.基于深度增强学习的海克斯棋博弈算法研究[J].科学与信息化,2021(2):57-58.
2沈强望,丁濛,杜文涛,赵文龙.对藏棋“久”的分阶段算法研究[J].智能计算机与应用,2021,11(2):88-92. 被引量：3
3苗莎.计算机博弈中搜索算法的研究与改进[J].中国新通信,2023,25(10):61-63.

二级引证文献3

1张小川,刘溜,陈龙,涂飞.一种非遗藏族久棋项目计算机博弈智能体的评估方法[J].重庆理工大学学报（自然科学）,2021,35(12):119-126. 被引量：4
2周少林,马小明.生态适应:藏棋文化生成发展的实践逻辑研究[J].青海民族大学学报（社会科学版）,2023,49(3):165-170.
3张小川,杨小漫,涂飞,王鑫,严明珠,梁渝卓.融合经验知识与深度强化学习的久棋Alpha-Beta算法优化研究[J].重庆理工大学学报（自然科学）,2024,38(5):115-120.

1徐俊杰,汪颖.基于用户启发法的老年人锻炼游戏动作设计研究[J].设计,2019,32(24):143-145.
2李忠宝.中国宝武氢能产此布局落子,首个科研性示范加氢站开建![J].中国机电工业,2020(6):62-62.
3崔文华,李东,唐宇波,柳少军.基于深度强化学习的兵棋推演决策方法框架[J].国防科技,2020,41(2):113-121. 被引量：12
4李鹏,樊中华.逆势而上显担当——南洋商业银行武汉分行开业[J].中国外资,2020(6):74-75.
5娄虎,颜军.重大传染病疫情中体育锻炼对应激心理神经免疫的路径与对策[J].中国体育科技,2020,56(5):35-40. 被引量：44

智能计算机与应用

2020年第3期

浏览历史

内容加载中请稍等...

基于强化学习的海克斯棋博弈算法研究与实现被引量：3

参考文献1

共引文献8

同被引文献7

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于强化学习的海克斯棋博弈算法研究与实现 被引量：3

参考文献1

共引文献8

同被引文献7

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于强化学习的海克斯棋博弈算法研究与实现被引量：3