不完美信息博弈中对手模型的研究被引量：2

Research on Opponent Modeling in Imperfect Information Games

下载PDF

导出

摘要针对传统的显式建模方法依赖大量数据样本的问题,提出了策略自扩展算法,通过样本数据的自扩展来提高建模效率。同时,为了提高对手模型的准确度,结合隐式建模和隐式子策略建模的方法,提出了子策略发现算法。以勒杜克(Leduc)扑克博弈为实验对象,对比研究了2种传统方法和本文提出的2种算法。实验结果表明:策略自扩展算法提高了显式建模的效率和模型准确性。在利用对手弱点获取收益方面,策略自扩展算法比显式建模方法提升了84. 4%,子策略发现算法比隐式建模方法提升了128. 6%。 For the problem of traditional explicit modeling relied on large numbers of data samples,the policy bootstrapping algorithm was introduced to improve the modeling efficiency through the bootstrapping of sample data.Meanwhile,in order to enhance the accuracy of opponent model,implicit modeling method and subpolicy implicit modeling method were combined to propose subpolicy discovery algorithm.The game of Leduc poker was used as an experimental subject to compare and two traditional methods the two new algorithms.The results indicate that policy bootstrapping improves the efficiency of explicit modeling and the accuracy of the model.Compared with the explicit modeling method,policy bootstrapping algorithm improves 77.9%in profits by using the opponent’s weakness,and the subpolicy discovery algorithm improves 128.6%compared with the implicit modeling method.

作者吴天栋石英 WU Tiandong;SHI Ying(School of Automation,Wuhan University of Technology,Wuhan 430070,China)

机构地区武汉理工大学自动化学院

出处《河南科技大学学报（自然科学版）》 CAS 北大核心 2019年第1期54-59,109,共7页 Journal of Henan University of Science And Technology:Natural Science

基金国家自然科学基金项目(61673306) 江苏省科技研究与发展计划基金项目(BE2016155)

关键词不完美信息博弈对手模型策略自扩展隐式建模 imperfect information games opponent modeling policy bootstrapping implicit modeling

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献4

1薛方正,方帅,徐心和.多机器人对抗系统仿真中的对手建模[J].系统仿真学报,2005,17(9):2138-2141. 被引量：7
2罗键,武鹤.基于交互式动态影响图的对手建模[J].控制与决策,2016,31(4):635-639. 被引量：4
3Yan Zheng,Jian-Ye Hao,Zong-Zhang Zhang,Zhao-Peng Meng,Xiao-Tian Hao.Efficient Multiagent Policy Optimization Based on Weighted Estimators in Stochastic Cooperative Environments[J].Journal of Computer Science & Technology,2020,35(2):268-280. 被引量：1
4罗俊仁,张万鹏,袁唯淋,胡振震,陈少飞,陈璟.面向多智能体博弈对抗的对手建模框架[J].系统仿真学报,2022,34(9):1941-1955. 被引量：8

引证文献2

1邓有朋,范佳宣,郑岩,王振亚,吕勇梁,李雨霄.不完全信息下多智能体对手建模[J].航空学报,2023,44(S02):443-452.
2刘婵娟,赵天昊,刘睿康,张强.智能体对手建模研究进展[J].图学学报,2021,42(5):703-711. 被引量：2

二级引证文献2

1韩润海,陈浩,刘权,黄健.基于对手动作预测的智能博弈对抗算法[J].计算机工程与应用,2023,59(7):190-197. 被引量：1
2徐浩添,秦龙,曾俊杰,胡越,张琪.基于深度强化学习的对手建模方法研究综述[J].系统仿真学报,2023,35(4):671-694. 被引量：2

1郑小禄,黄宁,徐侃.基于超限学习机的通信网络弹性预测方法[J].通信技术,2018,51(1):92-100. 被引量：2
2富宜宇,张保稳.一种基于描述逻辑的等级保护安全校验方法[J].通信技术,2017,50(11):2554-2560.
3张彤,马帅,沈宏.面向公平分配的时变应急服务覆盖优化[J].武汉大学学报（信息科学版）,2017,42(12):1681-1687. 被引量：2
4杨飞凡,赵祖烨,张楠,陈锦锋.基于AMF格式的微结构表达式研究[J].软件导刊,2017,16(11):1-4. 被引量：2
5邹艳红,黄望,阳宽达,褚慧慧,毛先成.基于杨赤中推估法空间插值的三维地质隐式建模[J].地质学刊,2017,41(3):384-393. 被引量：12
6卜春富.用智慧实现课堂增值[J].教学管理与教育研究,2017,2(23):107-109. 被引量：1
7郭甲腾,吴立新,王江梅,周文辉,李超岭,李丰丹.基于隐式化Coons曲面的局部地质构造区域集成建模方法[J].地理与地理信息科学,2018,34(1):1-5. 被引量：5
8刘学.杜克大学研究指出美国水力压裂的水足迹持续增长[J].天然气地球科学,2018,29(9):1363-1363.
9李博嵩,王旭,蒋传文,赵岩.广泛负荷聚集商市场策略建模及风险效益分析[J].电力系统自动化,2018,42(16):119-126. 被引量：28
10刘泽群,刘铭劼.异型结构BIM建模方法效率评价[J].建筑结构,2018,48(S1):669-672. 被引量：1

河南科技大学学报（自然科学版）

2019年第1期

浏览历史

内容加载中请稍等...

不完美信息博弈中对手模型的研究被引量：2

同被引文献4

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

不完美信息博弈中对手模型的研究 被引量：2

同被引文献4

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

不完美信息博弈中对手模型的研究被引量：2