-
题名基于粒子群优化的德州扑克在线对手利用
被引量:1
- 1
-
-
作者
胡振震
陈少飞
袁唯淋
李鹏
陈璟
-
机构
国防科技大学智能科学学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2024年第5期1687-1696,共10页
-
基金
国家自然科学基金项目(61806212,62376280)。
-
文摘
德州扑克中,相比于采用均衡策略求解的方法,对手利用是针对存在弱点的对手以获取更大收益的更有效方法.然而在面对一个全新对手时,在线条件下如何高效利用对手仍然是一大难题.现有方法常采用离线训练在线适应的方式来避开这一问题,即利用学习、演化等方法,通过海量离线训练来获得具有对手适应性的模型,使其能在比赛中适应不同的对手,而不是在比赛中针对一个新对手在线主动地优化自身策略.对此,以在线主动策略优化实现有效对手利用为目的,基于时间维的粒子定义提出一种基于粒子群优化的策略优化方法,将在线策略优化的思路引入德州扑克这种具有强随机性的博弈问题中,开展对手利用并实现在线比赛收益最大化.针对适应度计算受随机运气影响以及部分对手针对性策略难以优化的问题,提出一种基于局部最优解替代、全局最优解替代的改进粒子群优化算法(BR-PSO).实验结果表明,对于标准PSO方法难以针对的对手,所提出的方法能有效获得对手的针对性策略以实现最大化对手利用,而且优化策略的收益能够媲美基于手牌预测AI的收益.
-
关键词
粒子群优化
策略优化
最优解替代
对手利用
在线比赛
德州扑克
-
Keywords
particle swarm optimization
policy optimization
optimal solution replacement
opponent exploitation
online competition
Texas Hold’em
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
O225
[理学—运筹学与控制论]
-