基于粒子群优化的德州扑克在线对手利用被引量：1

Online opponent exploitation method based on particle swarm optimization for Texas Hold’em

导出

摘要德州扑克中,相比于采用均衡策略求解的方法,对手利用是针对存在弱点的对手以获取更大收益的更有效方法.然而在面对一个全新对手时,在线条件下如何高效利用对手仍然是一大难题.现有方法常采用离线训练在线适应的方式来避开这一问题,即利用学习、演化等方法,通过海量离线训练来获得具有对手适应性的模型,使其能在比赛中适应不同的对手,而不是在比赛中针对一个新对手在线主动地优化自身策略.对此,以在线主动策略优化实现有效对手利用为目的,基于时间维的粒子定义提出一种基于粒子群优化的策略优化方法,将在线策略优化的思路引入德州扑克这种具有强随机性的博弈问题中,开展对手利用并实现在线比赛收益最大化.针对适应度计算受随机运气影响以及部分对手针对性策略难以优化的问题,提出一种基于局部最优解替代、全局最优解替代的改进粒子群优化算法(BR-PSO).实验结果表明,对于标准PSO方法难以针对的对手,所提出的方法能有效获得对手的针对性策略以实现最大化对手利用,而且优化策略的收益能够媲美基于手牌预测AI的收益. In Texas Hold’em,opponent exploitation is the more effective method to obtain larger income from opponents with weakness in contrast to the Nash equilibrium searching method.However,how to effectively exploit the brand new opponent under the condition of online competitions is still a challenge.The existing methods usually use offline training and online adaptation to avoid this problem,that is,using like learning,evolution methods to obtain a model with opponent adaptability through massive offline training,so that it can adapt to different opponents in competitions,instead of actively optimizing its own policy for a new opponent in the online competition.For the purpose of online active policy optimizing to achieve effective opponent exploitation,a policy optimization method based on particle swarm optimization(PSO)is proposed to maximize the competition income,which introduces the idea of online optimization into Texas Hold’em regarded as an game problem with strong randomness.Aiming to the problems that fitness computation is affected by random luck and targeted policies for some opponents are hard to optimize with the standard PSO,a modified PSO method called BR-PSO(best replacement-PSO)is proposed based on local optimal solution replacement and global optimal solution replacement.The result of experiments indicates the proposed method can find targeted policies to maximize opponent exploitation of the opponents that are hard to counter with the standard PSO,and the income of the optimized policy is comparable to that of AI based on the hand prediction method.

作者胡振震陈少飞袁唯淋李鹏陈璟 HU Zhen-zhen;CHEN Shao-fei;YUAN Wei-lin;LI Peng;CHEN Jing(College of Intelligence Science and Technology,National University of Defense Technology,Changsha 410073,China)

机构地区国防科技大学智能科学学院

出处《控制与决策》 EI CSCD 北大核心 2024年第5期1687-1696,共10页 Control and Decision

基金国家自然科学基金项目(61806212,62376280)。

关键词粒子群优化策略优化最优解替代对手利用在线比赛德州扑克 particle swarm optimization policy optimization optimal solution replacement opponent exploitation online competition Texas Hold’em

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] O225 [理学—运筹学与控制论]

引文网络
相关文献

参考文献2

1Jun Tang,Gang Liu,Qingtao Pan.A Review on Representative Swarm Intelligence Algorithms for Solving Optimization Problems:Applications and Trends[J].IEEE/CAA Journal of Automatica Sinica,2021,8(10):1627-1643. 被引量：39
2李翔,姜晓红,陈英芝,包友军.基于手牌预测的多人无限注德州扑克博弈方法[J].计算机学报,2018,41(1):47-64. 被引量：11

二级参考文献12

1曾建潮,崔志华.一种保证全局收敛的PSO算法[J].计算机研究与发展,2004,41(8):1333-1338. 被引量：160
2TAN Guan-Zheng,HE Huan,SLOMAN Aaron.Ant Colony System Algorithm for Real-Time Globally Optimal Path Planning of Mobile Robots[J].自动化学报,2007,33(3):279-285. 被引量：26
3胡晓敏,张军,李耘.Orthogonal Methods Based Ant Colony Search for Solving Continuous Optimization Problems[J].Journal of Computer Science & Technology,2008,23(1):2-18. 被引量：15
4Zhiming Lv,Linqing Wang,Zhongyang Han,Jun Zhao,Wei Wang.Surrogate-Assisted Particle Swarm Optimization Algorithm With Pareto Active Learning for Expensive Multi-Objective Optimization[J].IEEE/CAA Journal of Automatica Sinica,2019,6(3):838-849. 被引量：13
5Kaizhou Gao,Zhiguang Cao,Le Zhang,Zhenghua Chen,Yuyan Han,Quanke Pan.A Review on Swarm Intelligence and Evolutionary Algorithms for Solving Flexible Job Shop Scheduling Problems[J].IEEE/CAA Journal of Automatica Sinica,2019,6(4):904-916. 被引量：37
6Pratik Roy,Ghanshaym Singha Mahapatra,Kashi Nath Dey.Forecasting of Software Reliability Using Neighborhood Fuzzy Particle Swarm Optimization Based Novel Neural Network[J].IEEE/CAA Journal of Automatica Sinica,2019,6(6):1365-1383. 被引量：11
7Haowei Lin,Bo Zhao,Derong Liu,Cesare Alippi.Data-based Fault Tolerant Control for Affine Nonlinear Systems Through Particle Swarm Optimized Neural Networks[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):954-964. 被引量：15
8Haibin Duan,Peixin Qiao.Pigeon-inspired optimization:a new swarm intelligence optimizer for air robot path planning[J].International Journal of Intelligent Computing and Cybernetics,2014,7(1):24-37. 被引量：66
9李晓磊,邵之江,钱积新.一种基于动物自治体的寻优模式:鱼群算法[J].系统工程理论与实践,2002,22(11):32-38. 被引量：884
10Zhigang Ren,Tehuan Chen,Zongze Wu.Optimal Matching Control of a Low Energy Charged Particle Beam in Particle Accelerators[J].IEEE/CAA Journal of Automatica Sinica,2019,6(2):460-470. 被引量：3

共引文献48

1焦连庆,于敏,黄青,张志伟,何亚全.TAME法测定金龙消栓合剂中吲激酶单位效价[J].中草药,2000,31(4):267-268. 被引量：3
2张小川,王宛宛,彭丽蓉.一种军棋机器博弈的多棋子协同博弈方法[J].智能系统学报,2020,15(2):399-404. 被引量：5
3邢志伟,李彪,马浩然,戴铮.航班地面保障过程动态控制方法研究[J].计算机仿真,2020,37(7):78-83. 被引量：3
4王亚杰,丁傲冬,祁冰枝,张云博.基于预期收益策略与UCT的德州扑克算法[J].重庆理工大学学报（自然科学）,2021,35(3):166-173. 被引量：3
5李轶,彭丽蓉,杜松,伍帆,王森.一种德州扑克博弈的决策模型[J].软件导刊,2021,20(5):16-19. 被引量：1
6邱虹坤,郑晓东,王亚杰.基于数据库和经验分析的桥牌混合策略打牌模型[J].重庆理工大学学报（自然科学）,2021,35(12):134-139. 被引量：2
7李亚玲,杨林瑶,葛俊,覃缘琪,王晓.博弈5.0:基于平行系统和机器博弈的社会认知平行博弈[J].智能科学与技术学报,2021,3(4):507-520. 被引量：3
8王亚杰,乔继林,梁凯,谢延延.结合先验知识与蒙特卡罗模拟的麻将博弈研究[J].智能系统学报,2022,17(1):69-78. 被引量：6
9曹阳,钟烨,彭醇陵,彭小峰.基于混合供能和能量协作的异构网络能量效率优化算法[J].通信学报,2022,43(3):135-147. 被引量：1
10Helong Yu,Xianhe Cheng,Ziqing Li,Qi Cai,Chunguang Bi.Disease Recognition of Apple Leaf Using Lightweight Multi-Scale Network with ECANet[J].Computer Modeling in Engineering & Sciences,2022(9):711-738. 被引量：4

同被引文献12

1施伟,冯旸赫,程光权,黄红蓝,黄金才,刘忠,贺威.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623. 被引量：53
2唐峯竹,唐欣,李春海,李晓欢.基于深度强化学习的多无人机任务动态分配[J].广西师范大学学报（自然科学版）,2021,39(6):63-71. 被引量：8
3孙乐.军事领域中科技专家系统的应用与效能评估[J].舰船电子工程,2022,42(1):16-18. 被引量：2
4崔世亮,刘广斌.基于专家系统的船舶结构优化设计[J].船舶物资与市场,2022,30(5):24-26. 被引量：5
5李博骁,张峰,李奇峰,郑明心.人工智能技术在军事领域的应用思考[J].中国电子科学研究院学报,2022,17(3):238-246. 被引量：11
6马也,范文慧,常天庆.基于智能算法的无人集群防御作战方案优化方法[J].兵工学报,2022,43(6):1415-1425. 被引量：7
7李洪,王超,王睿.关于电子战发展趋势的一些思考[J].中国军转民,2023(1):57-59. 被引量：2
8苏周,刘飞,许晓剑,韩俊.智能化电子战装备发展研究[J].舰船电子对抗,2023,46(4):9-13. 被引量：1
9代学武,吴越,石琦,崔东亮,俞胜平.基于优先经验回放可迁移深度强化学习的高铁调度[J].控制与决策,2023,38(8):2375-2388. 被引量：1
10王健,杨渡佳,黄科举,李小帅,杨俊安.认知电子战发展趋势:从单体智能到群体智能[J].信息对抗技术,2023,2(4):151-170. 被引量：4

引证文献1

1杨洋,王烨,康大勇,陈嘉玉,李姜,赵华栋.基于强化学习的多智能体协同电子对抗方法[J].兵器装备工程学报,2024,45(7):1-10.

1王海强,吴思雨,郑丽红,张杨.基于“治中焦如衡”探讨胃癌前免疫失衡的中医治疗[J].天津中医药大学学报,2024,43(1):71-77.
2张国政,周元枝,姜洪辉,彭易杭.盖板件高效铣削表面粗糙度预测与工艺参数优化[J].工具技术,2024,58(4):116-121. 被引量：1
3苏鹏,杨进,许留洋.结合粒子群优化和最小二乘法的1-D正则化反演方法[J].Applied Geophysics,2023,20(1):77-87.
4许艳芳,朱春玲,曾萌.从遵从到创造:社会企业获取组织合法性的路径与策略——基于纵向单案例研究方法[J].上海大学学报（社会科学版）,2024,41(2):95-110. 被引量：2
5李强,郭雯羽.上海老年人力资源开发的现状、困境及对策研究[J].华东师范大学学报（哲学社会科学版）,2024,56(3):150-163.

控制与决策

2024年第5期

浏览历史

内容加载中请稍等...

基于粒子群优化的德州扑克在线对手利用被引量：1

参考文献2

二级参考文献12

共引文献48

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于粒子群优化的德州扑克在线对手利用 被引量：1

参考文献2

二级参考文献12

共引文献48

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于粒子群优化的德州扑克在线对手利用被引量：1