基于深度强化学习的掼蛋扑克博弈求解

Solving GuanDan Poker Games with Deep Reinforcement Learning

下载PDF

导出

摘要在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一.而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流.其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点,还由于可选出牌动作与他人手牌情况数量庞大等特点,难以进行高效求解.因此,提出了一种软深度蒙特卡洛(soft deep Monte Carlo,SDMC)求解方法.该方法能够更好地融合领域知识,加快策略学习速度,并采用软动作采样策略调整实时决策,提升策略胜率.所提出的SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军.与第1届比赛冠军策略和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性. Decisions are often made in complex environment without exact information in many real-world occasions.Hence the capability of making proper decisions is expected for artificial intelligence agents.As abstractions of the real world,games provoke interests of researchers with the benefits of well-defined game structure and the facility to evaluate various algorithms.Among these games,GuanDan poker games are typical games with large action space and huge information set size,which exacerbates the problem and increases the difficulty to solve these games.In this work,we propose a novel soft deep Monte Carlo(SDMC)method to overcome the above-mentioned difficulties.By considering how the expert strategy acts in the training process,SDMC can better utilize the expert knowledge and accelerate the convergence of training process.Meanwhile,SDMC applies an action sample strategy in real time playing to confuse the opponents and prohibits the potentional exploitation of them,which could also lead to significant improvement of the performance against different agents.SDMC agent was the champion of the 2nd Chinese Artificial Intelligence Game Algorithm competition.Comprehensive experiments that evaluate the training time and final performance are conducted in this work,showing superior performance of SDMC against other agents such as the champion of 1st competition.

作者葛振兴向帅田品卓高阳 Ge Zhenxing;Xiang Shuai;Tian Pinzhuo;Gao Yang(National Key Laboratory for Novel Software Technology(Nanjing University),Nanjing 210023;School of Computer Engineering and Science,Shanghai University,Shanghai 200444;Shenzhen Research Institute of Nanjing University,Shenzhen,Guangdong 518057)

机构地区计算机软件新技术国家重点实验室(南京大学) 上海大学计算机工程与科学学院南京大学深圳研究院

出处《计算机研究与发展》 EI CSCD 北大核心 2024年第1期145-155,共11页 Journal of Computer Research and Development

基金国家重点研发计划项目(2018AAA0100905) 国家自然科学基金项目(62192783,62276142,62206166) 江苏省产业前瞻与关键核心技术竞争项目(BE2021028) 深圳市中央引导地方科技发展资金项目(2021Szvup056) 上海市扬帆计划项目(23YF1413000)。

关键词非完美信息深度强化学习多智能体系统软深度蒙特卡洛方法扑克博弈 imperfect information deep reinforcement learning multi-agent system soft deep Monte Carlo method poker game

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1郑渤龙,明岭峰,胡琦,方一向,郑凯,李国徽.基于深度强化学习的网约车动态路径规划[J].计算机研究与发展,2022,59(2):329-341. 被引量：4
2亓法欣,童向荣,于雷.基于强化学习DQN的智能体信任增强[J].计算机研究与发展,2020,57(6):1227-1238. 被引量：13

二级参考文献3

1童向荣,黄厚宽,张伟.Agent动态交互信任预测与行为异常检测模型[J].计算机研究与发展,2009,46(8):1364-1370. 被引量：10
2童向荣,张伟,龙宇.Agent主观信任的传递性[J].软件学报,2012,23(11):2862-2870. 被引量：16
3Zhiquan LIU,Jianfeng MA,Zhongyuan JIANG,Yinbin MIAO.FCT: a fully-distributed context-aware trust model for location based service recommendation[J].Science China(Information Sciences),2017,60(8):97-112. 被引量：2

共引文献15

1杨悦,潘刚,朱敬华.真实交通数据下的实时电动汽车智能充电策略[J].计算机与数字工程,2023,51(1):133-141. 被引量：2
2聂雷,刘博,李鹏,何亨.基于多智能体Q学习的异构车载网络选择方法[J].计算机工程与科学,2021,43(5):836-844. 被引量：3
3洪志理,赖俊,曹雷,陈希亮.融合用户兴趣建模的智能推荐算法研究[J].信息技术与网络安全,2021,40(11):37-48. 被引量：1
4徐敏,胡聪,王萍,张翠翠,王鹏.基于强化学习的Ceph文件系统的性能优化[J].微型电脑应用,2022,38(3):83-86. 被引量：1
5冯景瑜,于婷婷,王梓莹,张文波,韩刚,黄文华.电力物联场景下抗失陷终端威胁的边缘零信任模型[J].计算机研究与发展,2022,59(5):1120-1132. 被引量：14
6王鑫,赵清杰,于重重,张长春,陈涌泉.多节点探测器软着陆的路径规划方法[J].宇航学报,2022,43(3):366-373. 被引量：2
7张文璐,霍子龙,赵西雨,崔琪楣,陶小峰.面向智能工厂多机器人定位的无线分布式协同决策[J].无线电通信技术,2022,48(4):718-727.
8王岩,童向荣.基于tri-training和极限学习机的跨领域信任预测[J].计算机研究与发展,2022,59(9):2015-2026.
9李迎港,童向荣.基于知识引导的自适应序列强化学习模型[J].模式识别与人工智能,2023,36(2):108-119.
10邓超,陈志,张欣,陆史堃,刘迪,张云彬,叶朝文,李派禹,许良本,肖骏,郑传增.卷烟零售终端走访路径规划算法集成与应用[J].中国烟草学报,2023,29(3):94-103.

1张开学.舞蹈队里活力足[J].当代贵州,2023(47):34-34.
2聂启红,周永辉.连续内部交易完美竞争的信息协议古诺均衡[J].纯粹数学与应用数学,2023,39(3):350-360.
3本刊,心远.信息浏览器[J].音乐爱好者,2023(9):71-72.
4无.亚洲桥王黄光辉一行莅临深圳职业技术大学指导[J].桥牌,2023(12):29-30.
5杨雨萌.于清华:在磨砺中成长从汗水里开花[J].中国农村金融,2023(21):66-66.
6白雪.迸发思想火花,绽放艺术才能专访钢琴家阿里·瓦迪与索菲亚·古利亚克[J].音乐爱好者,2023(10):14-17.
7体教结合领先同侪[J].NBA特刊,2023(23):109-109.

计算机研究与发展

2024年第1期

浏览历史

内容加载中请稍等...

基于深度强化学习的掼蛋扑克博弈求解

参考文献2

二级参考文献3

共引文献15

相关作者

相关机构

相关主题

浏览历史