期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一款基于Android的德州扑克游戏模型设计 被引量:1
1
作者 罗扬 朱文菁 《金陵科技学院学报》 2017年第2期28-31,共4页
根据德州扑克的游戏规则,设计了基于Android手机版的德州扑克游戏模型,该游戏包含5个类模块:荷官类模块、玩家类模块、桌子类模块、规则类模块、逻辑类模块,介绍了游戏的算法和逻辑线程,最终完成游戏模型,真正实现手机版的德州扑克游戏。
关键词 安卓 德州扑克 游戏模型 设计
下载PDF
一种针对德州扑克AI的对手建模与策略集成框架 被引量:6
2
作者 张蒙 李凯 +3 位作者 吴哲 臧一凡 徐航 兴军亮 《自动化学报》 EI CAS CSCD 北大核心 2022年第4期1004-1017,共14页
以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收... 以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收益.为解决上述问题,提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架.本框架分为智能体离线训练和在线博弈两个阶段.第1阶段基于演化学习思想训练智能体,得到能够剥削不同博弈风格对手的策略神经网络.在第2博弈阶段中,智能体在线建模并适应未知风格对手,利用种群策略集成的方法最大化剥削对手.在两人无限注德州扑克环境中的实验结果表明,本框架在面对动态对手策略时,相比已有方法能够大幅提升博弈性能. 展开更多
关键词 不完美信息博弈 德州扑克 演化学习 在线对手建模 种群策略集成
下载PDF
强化学习在机器博弈上的应用综述 被引量:3
3
作者 杜康豪 宋睿卓 魏庆来 《控制工程》 CSCD 北大核心 2021年第10期1998-2004,共7页
人工智能是未来科技发展的必然趋势,将会对世界产生巨大的影响,而机器博弈更是人工智能研究的热点内容。目前,解决机器博弈问题最先进的算法都来源于强化学习。强化学习是机器学习最重要的方法之一,主要用来解决决策问题。它具有接近人... 人工智能是未来科技发展的必然趋势,将会对世界产生巨大的影响,而机器博弈更是人工智能研究的热点内容。目前,解决机器博弈问题最先进的算法都来源于强化学习。强化学习是机器学习最重要的方法之一,主要用来解决决策问题。它具有接近人类思维的学习机制,通过试错的方式同环境发生交互,累积最大奖赏并得到最优策略。博弈具有多种多样的形式,内容也十分广泛,根据不同的标准会产生不同的分类,可以将其分为完全信息博弈和非完全信息博弈,但它们都可以通过强化学习进行解决。 展开更多
关键词 强化学习 机器博弈 非完全信息博弈 围棋 德州扑克 DOTA2
下载PDF
计算机扑克智能博弈研究综述 被引量:3
4
作者 袁唯淋 廖志勇 +4 位作者 高巍 魏婷婷 罗俊仁 张万鹏 陈璟 《网络与信息安全学报》 2021年第5期57-76,共20页
计算机博弈是人工智能领域的“果蝇”,备受人工智能领域研究者的关注,已然成为研究认知智能的有利平台。扑克类博弈对抗问题可建模成边界确定、规则固定的不完美信息动态博弈,计算机扑克AI需要具备不完全信息动态决策、对手误导欺诈行... 计算机博弈是人工智能领域的“果蝇”,备受人工智能领域研究者的关注,已然成为研究认知智能的有利平台。扑克类博弈对抗问题可建模成边界确定、规则固定的不完美信息动态博弈,计算机扑克AI需要具备不完全信息动态决策、对手误导欺诈行为识别以及多回合筹码和风险管理等能力。首先梳理了以德州扑克为代表的计算机扑克智能博弈的发展历程,其次针对计算机扑克智能博弈典型模型算法、关键技术以及存在的主要问题进行了综述分析,最后探讨了计算机扑克智能博弈的未来发展趋势和应用前景。 展开更多
关键词 计算机扑克 认知智能 不完美信息博弈 德州扑克 虚拟遗憾最小化
下载PDF
基于预期收益策略与UCT的德州扑克算法 被引量:3
5
作者 王亚杰 丁傲冬 +1 位作者 祁冰枝 张云博 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第3期166-173,共8页
针对虚拟遗憾最小化算法和传统上限置信区间算法等过于依赖领域知识或者需要大量对局记录训练的问题,以二人无限注德州扑克为研究对象,提出了基于预期收益策略的改进UCT算法。首先,使用蒙特卡罗方法即多次随机生成对方底牌和未知公共牌... 针对虚拟遗憾最小化算法和传统上限置信区间算法等过于依赖领域知识或者需要大量对局记录训练的问题,以二人无限注德州扑克为研究对象,提出了基于预期收益策略的改进UCT算法。首先,使用蒙特卡罗方法即多次随机生成对方底牌和未知公共牌,然后比较双方牌型大小,计算己方胜率;其次,根据己方胜率和己方动作下注量计算预期收益并根据每个动作的预期收益,选择一个最大的动作作为下一步;最后,根据己方胜率与对手下注量评估对手胜率,从而将预期收益策略作为对手策略模型应用在传统UCT算法中。在开局筹码量为20 000的情况下,改进后的UCT算法与基于预期收益策略实现的德州扑克程序THPZZ进行100局的对弈,平均每局赢得的筹码量为655,水平显著高于THPZZ。 展开更多
关键词 UCT算法 蒙特卡罗 德州扑克 预期收益 对手胜率评估 非完备信息博弈
下载PDF
一种德州扑克牌力评估方法 被引量:4
6
作者 张小川 杜松 +2 位作者 赵海璐 刘贺 伍帆 《重庆理工大学学报(自然科学)》 北大核心 2021年第9期130-135,共6页
德州扑克是一种计算机博弈牌类项目,作为不完美信息博弈,其牌力评估较为困难。为了提高针对不同对手的评估效益,提出一种基于对手模型的牌力评估方法。首先用树存储对手的动作频率信息,然后根据树构建一个与对手行动类似的虚拟对手智能... 德州扑克是一种计算机博弈牌类项目,作为不完美信息博弈,其牌力评估较为困难。为了提高针对不同对手的评估效益,提出一种基于对手模型的牌力评估方法。首先用树存储对手的动作频率信息,然后根据树构建一个与对手行动类似的虚拟对手智能体,最后在对局中计算虚拟对手的策略,更新对手的手牌权重,缩小对手可能手牌范围,完成牌力评估。实验结果显示:使用基于对手模型牌力评估方法的智能体击败了不同风格的对手,且总体赢得的筹码比使用静态评估方法的智能体高。与传统方法相比能有效针对不同的对手类型,提高评估效益。 展开更多
关键词 牌力评估 德州扑克 对手模型 计算机博弈
下载PDF
一种德州扑克博弈的决策模型 被引量:1
7
作者 李轶 彭丽蓉 +2 位作者 杜松 伍帆 王森 《软件导刊》 2021年第5期16-19,共4页
为解决传统方法难以处理德州扑克巨大的状态空间,以及强化学习中人工神经网络收敛性差等问题,以强化学习框架为基础,采用AC算法,引入专家先验知识预训练网络参数,以加速收敛。然后通过自博弈的方式让模型开始自我对战,不断更新模型中的... 为解决传统方法难以处理德州扑克巨大的状态空间,以及强化学习中人工神经网络收敛性差等问题,以强化学习框架为基础,采用AC算法,引入专家先验知识预训练网络参数,以加速收敛。然后通过自博弈的方式让模型开始自我对战,不断更新模型中的神经网络参数,以提高模型的决策准确度。实验数据表明,模型的损失函数值在先验知识的影响下,收敛性得到了提升。在与其它版本智能体的对弈中,最终版本模型每局平均收益都在1个大盲注筹码以上。因此,应用该决策模型可构建具有一定实力的德州扑克智能体。 展开更多
关键词 非完备信息机器博弈 强化学习 德州扑克 决策模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部