结合A2C和手牌估值方法的麻将博弈研究

Research on mahjong game combining A2C with hand value evaluation method

下载PDF

导出

摘要针对大众麻将中对手牌信息利用不充分的问题,提出了手牌估值方法,并设计了基础麻将程序(MJE)。为进一步提升麻将AI的博弈能力,使用深度强化学习方法设计了麻将AI(MJE-RL)。首先,通过MJE自对弈生成深度学习的训练数据。其次,根据训练集、测试集和对比实验的结果,选择效果最好的模型作为强化学习的预训练模型。最后,使用优势演说-评论家模型作为强化学习的主要框架,将训练好的深度学习模型作为演说家部分进行决策,通过MJE-RL与MJE的对弈不断提升麻将AI的博弈能力。实验结果显示,MJE-RL的胜率比MJE高4.08%,点炮率比MJE低3.02%,表明MJE-RL在攻守两端都有提升,达到了提升麻将AI牌力的目的。 To address the underutilizing hand information in popular mahjong,this paper designs a hand valuation method and a basic mahjong program(MJE).Mahjong AI(MJE-RL)is designed by using the deep reinforcement learning approach to further improve its gaming ability.First,the training data of deep learning is generated by MJE’s self-play.Second,the best model is selected as the pre-training model of reinforcement learning,according to the results of training set,test set and comparison experiment.Finally,the Advantage Actor-Critic(A2C)model is employed as the main framework of reinforcement learning.The well-trained deep learning model is used as the Actor to make decisions,and the game ability of mahjong AI is constantly improved by playing between MJE-RL and MJE.Our experimental results indicate the winning rate of MJE-RL is 4.08%higher than that of MJE and the rate of Win by Discard is 3.02%lower than that of MJE.Meanwhile,it is shown that MJE-RL markedly improves both offensive and defensive fronts,demonstrating improved overall strength of mahjong AI.

作者衣御寒王亚杰吴燕燕刘松张兴慧蒋传禹 YI Yuhan;WANG Yajie;WU Yanyan;LIU Song;ZHANG Xinghui;JIANG Chuanyu(Engineering Training Center,Shenyang Aerospace University,Shenyang 110136,China)

机构地区沈阳航空航天大学工程训练中心

出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2024年第5期154-161,共8页 Journal of Chongqing University of Technology：Natural Science

基金辽宁省兴辽英才计划项目(XLYC1906003)。

关键词麻将非完备信息深度强化学习 A2C popular mahjong incomplete information deep reinforcement learning A2C

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1李淑琴,冯浩东.牌型预测与蒙特卡洛模拟结合的麻将博弈策略[J].重庆理工大学学报（自然科学）,2022,36(12):148-154. 被引量：6
2李淑琴,李奕.一种多重优先经验回放的麻将游戏数据利用方法[J].重庆理工大学学报（自然科学）,2022,36(12):162-169. 被引量：2
3彭丽蓉,赵海璐,甘春晏,刘洁,陈俊宇.一种大众麻将计算机博弈的胡牌方法研究[J].重庆理工大学学报（自然科学）,2021,35(12):127-133. 被引量：8
4王亚杰,乔继林,梁凯,谢延延.结合先验知识与蒙特卡罗模拟的麻将博弈研究[J].智能系统学报,2022,17(1):69-78. 被引量：6
5雷捷维,王嘉旸,任航,闫天伟,黄伟.基于Expectimax搜索与Double DQN的非完备信息博弈算法[J].计算机工程,2021,47(3):304-310. 被引量：7
6Shijing Gao,Shuqin Li.Bloody Mahjong playing strategy based on the integration of deep learning and XGBoost[J].CAAI Transactions on Intelligence Technology,2022,7(1):95-106. 被引量：4
7李霞丽,王昭琦,刘博,吴立成.麻将博弈AI构建方法综述[J].智能系统学报,2023,18(6):1143-1155. 被引量：2
8徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：40
9王亚杰,邱虹坤,吴燕燕,李飞,杨周凤.计算机博弈的研究与发展[J].智能系统学报,2016,11(6):788-798. 被引量：30
10王骄,徐心和.计算机博弈:人工智能的前沿领域——全国大学生计算机博弈大赛[J].计算机教育,2012(7):14-18. 被引量：18

二级参考文献67

1何大华,陈传波.关于桥牌的取胜策略[J].华中科技大学学报（自然科学版）,2004,32(7):13-15. 被引量：6
2王骄,王涛,罗艳红,徐心和.中国象棋计算机博弈系统评估函数的自适应遗传算法实现[J].东北大学学报（自然科学版）,2005,26(10):949-952. 被引量：16
3徐心和,王骄.中国象棋计算机博弈关键技术分析[J].小型微型计算机系统,2006,27(6):961-969. 被引量：61
4徐长明,南晓斐,王骄,徐心和.中国象棋机器博弈的时间自适应分配策略研究[J].智能系统学报,2006,1(2):39-43. 被引量：2
5魏钦刚,王骄,徐心和,南晓斐.中国象棋计算机博弈开局库研究与设计[J].智能系统学报,2007,2(1):85-89. 被引量：5
6LIU Zhi-qing,DOU Qing.Automatic pattern acquisition from game records in GO[J].The Journal of China Universities of Posts and Telecommunications,2007,14(1):100-105. 被引量：1
7[1]Von NEUMANN J,MORGENSTERN O.Theory of games and economic behavior[M].Princeton:Princeton University Press,1944.
8[2]SHANNON C E.Programming a computer for playing chess[J].Philosophical Magazine,1950,41:256-275.
9[3]TURING A.Digital computers applied to games[C]//Faster than Thought.London,1953:286-295.
10[4]FULLER S H,GASCHING J G,GILLOGLY J J.An analysis of the alpha-beta pruning algorithm[D].Pittsburg:Carnegie-Mellon University,1973.

共引文献84

1王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：3
2徐志凡,王静文,李媛.基于UCT算法改进的Hex棋博弈系统研究[J].智能计算机与应用,2022,12(3):183-185.
3张雪峰,连莲,徐心和.基于有限自动机的“点点连格”机器博弈系统的建模与分析[J].沈阳建筑大学学报（自然科学版）,2009,25(4):796-801. 被引量：3
4韩逢庆,李翠珠,李为.六子棋博弈的二次估值[J].重庆工学院学报（自然科学版）,2009,23(11):57-60.
5张小川,陈光年,张世强,孙可均,李祖枢.六子棋博弈的评估函数[J].重庆理工大学学报（自然科学）,2010,24(2):64-68. 被引量：7
6张恩海,李彦平,朱俊威.中国象棋多自动机复合模型及其估值方法研究[J].沈阳大学学报,2011,23(2):7-11.
7史晓茹,侯媛彬,张涛.不完全信息博弈的机器人对抗决策[J].智能系统学报,2011,6(2):147-151. 被引量：7
8蔡增玉,方娜,甘勇,贺蕾.智能五子棋博弈关键技术研究[J].郑州轻工业学院学报（自然科学版）,2010,25(6):76-80.
9李淑琴,刘均梅.科技竞赛与学生创新能力的培养[J].新课程学习（中）,2011(7):95-96. 被引量：3
10李淑琴,刘均梅,侯霞.基于科技竞赛的创新人才培养模式研究与实践[J].中国电力教育（中）,2011(12):40-41. 被引量：12

1李家骥.BIM正向设计在建筑设计中的应用与实践研究[J].中文科技期刊数据库（引文版）工程技术,2024(4):0200-0203.
2郭长江.高层建筑结构设计的问题分析及对策研究[J].中文科技期刊数据库（全文版）工程技术,2016(10):50-50.
3张小彬.SOC估算方法研究及其在新能源汽车电池管理系统中应用分析[J].中国科技期刊数据库工业A,2019(3):233-234.
4韩志明.跨越信息不对称的陷阱:国家治理现代化的信息维度[J].江苏社会科学,2024(1):86-96. 被引量：1
5观点集萃[J].中国名牌,2023(6):20-21.
6刘三跃.无人机倾斜摄影测量在矿山测绘中的应用研究[J].中国厨卫,2024,23(5):344-346.
7张爱芬.简析信息技术在高中语文教学中的使用策略[J].中国新通信,2024,26(7):170-172.
8连晓卫.用差异化产品撬动市场新需求用品牌力赋能经销商[J].现代家电,2023(12):38-41.
9田双双,张维行,邵金萍,秦玉军,庞烨.纯电无人矿卡线控底盘技术开发及应用[J].汽车电器,2024(4):19-20.
10张波.考虑消费者异质性偏好的双渠道生鲜农产品供应链协调研究[J].铁路采购与物流,2024,19(3):44-46.

重庆理工大学学报（自然科学）

2024年第5期

浏览历史

内容加载中请稍等...

结合A2C和手牌估值方法的麻将博弈研究

参考文献10

二级参考文献67

共引文献84

相关作者

相关机构

相关主题

浏览历史