一种用于两人零和博弈对手适应的元策略演化学习算法被引量：1

A Meta-evolutionary Learning Algorithm for Opponent Adaptation in Two-player Zero-sum Games

下载PDF

导出

摘要围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并不能保证收益最大化.对手建模为最大化博弈收益提供了一种新途径,但仍存在建模困难等问题.结合元学习的思想提出了一种能够快速适应对手策略的元策略演化学习求解框架.在训练阶段,首先通过种群演化的方法不断生成风格多样化的博弈对手作为训练数据,然后利用元策略更新方法来调整元模型的网络权重,使其获得快速适应的能力.在Leduc扑克、两人有限注德州扑克(Heads-up limit Texas Hold’em, LHE)和RoboSumo上的大量实验结果表明,该算法能够有效克服现有方法的弊端,实现针对未知风格对手的快速适应,从而为两人零和博弈收益最大化求解提供了一种新思路. Recently, two-player zero-sum games have made impressive breakthroughs in the Go and Texas Hold’em. Most of the existing two-player zero-sum game solutions are based on the assumption of rational opponents to approximate the Nash equilibrium solutions, which is a conservative strategy of trying to be undefeated but does not guarantee maximum payoffs in practice due to the opponents’ irrationality. The opponent modeling provides a new way to maximize the payoff, but modeling has difficulties. This paper proposes a meta-evolutionary learning framework that can quickly adapt to the opponents. In the training phase, we first generate opponents with different styles as training data through the population evolution method, and then use the meta-strategy update method to adjust the network weights of the meta-model so that it can gain the ability to adapt quickly. Extensive experiments on Leduc poker, heads-up limit Texas Hold’em(LHE), and RoboSumo have shown that the algorithm can effectively overcome the drawbacks of existing methods and achieve fast adaptation to unknown style of opponents, thus providing a new way of solving two-player zero-sum games with maximum payoff.

作者吴哲李凯徐航兴军亮 WU Zhe;LI Kai;XU Hang;XING Jun-Liang(Center for Research on Intelligent System and Engineering,Institute of Automation,Chinese Academy of Sciences,Beijing 100190;School of Artificial Intelligence,University of Chinese Academy of Sciences,Beijing 100049;Department of Computer Science and Technology,Tsinghua University,Beijing 100084)

机构地区中国科学院自动化研究所智能系统与工程研究中心中国科学院大学人工智能学院清华大学计算机科学与技术系

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第10期2462-2473,共12页 Acta Automatica Sinica

基金国家重点研发计划(2020AAA0103401) 国家自然科学基金(62076238,61902402) 中国科学院战略性先导研究项目(XDA27000000) CCF-腾讯犀牛鸟基金(RAGR20200104)资助。

关键词两人零和博弈纳什均衡对手建模元学习种群演化 Two-player zero-sum games Nash equilibrium opponent modeling meta learning population evolution

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] O225 [理学—运筹学与控制论]

引文网络
相关文献

参考文献6

1赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
2周志华.AlphaGo专题介绍[J].自动化学报,2016,42(5):670-670. 被引量：10
3郭潇逍,李程,梅俏竹.深度学习在游戏中的应用[J].自动化学报,2016,42(5):676-684. 被引量：22
4沈宇,韩金朋,李灵犀,王飞跃.游戏智能中的AI——从多角色博弈到平行博弈[J].智能科学与技术学报,2020,2(3):205-213. 被引量：14
5梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557. 被引量：37
6孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：86

二级参考文献198

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：22
2LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,0(3):219-227. 被引量：5
3王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：236
4Werbos P. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences [Ph.D. dissertation], Harvard University, USA, 1974.
5Parker D B. Learning Logic, Technical Report TR-47, MIT Press, Cambridge, 1985.
6LeCun Y. Une proc6dure d'apprentissage pour R6seau seuil assymatrique (a learning scheme for asymmetric threshold networks). In: Proceddings of the Cognitiva 85. Paris, France. 599-604 (in French).
7Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors. Nature, 1986, 323(6088): 533-536.
8Bengio Y. Learning Deep Architectures for AI. Hanover MA: Now Publishers Inc. 2009.
9Hinton G E, Osindero S, Teh Y W. A fast learning algo- rithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.
10Ranzato M, Poultney C, Chopra S, LeCun Y. Efficient learn- ing of sparse representations with an energy-based model. In: Proceedings of the 2007 Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007.

共引文献256

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
6舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
7A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
8程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：121
9王庆福.基于神经网络的深度学习方法研究[J].电脑编程技巧与维护,2016(12):49-50. 被引量：1
10赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131

引证文献1

1王卓,李永强,冯宇,冯远静.两方零和马尔科夫博弈策略梯度算法及收敛性分析[J].浙江大学学报（工学版）,2024,58(3):480-491.

1张蒙,李凯,吴哲,臧一凡,徐航,兴军亮.一种针对德州扑克AI的对手建模与策略集成框架[J].自动化学报,2022,48(4):1004-1017. 被引量：6
2罗俊仁,张万鹏,袁唯淋,胡振震,陈少飞,陈璟.面向多智能体博弈对抗的对手建模框架[J].系统仿真学报,2022,34(9):1941-1955. 被引量：8
3沃尔夫冈·施波恩,陈伟(译).行动理性与认识理性视角下的博弈论[J].中国社会科学文摘,2019(11):38-39.
4魏婷婷,袁唯淋,罗俊仁,张万鹏.智能博弈对抗中的对手建模方法及其应用综述[J].计算机工程与应用,2022,58(9):19-29. 被引量：6
5韩明师,张琳.“孤独的产物”还是“自律的利器”B站直播自习室的用户动机探析[J].新闻文化建设,2022(4):182-184. 被引量：2
6刘艳芳,李文斌,高阳.特征演化的置信-加权学习方法[J].软件学报,2022,33(4):1315-1325. 被引量：1
7李占山,姚鑫,刘兆赓,张家晨.基于LightGBM的特征选择算法[J].东北大学学报（自然科学版）,2021,42(12):1688-1695. 被引量：26
8陆剑峰,夏路遥,张浩,徐萌颖.制造企业数字孪生生态系统的研究与应用[J].计算机集成制造系统,2022,28(8):2273-2290. 被引量：11
9张璟若.传统中国画构成的演变研究[J].花溪,2022(25):0016-0018.
10罗俊仁,张万鹏,陆丽娜,陈璟.即时策略博弈在线对抗规划方法综述[J].计算机科学,2022,49(6):287-296.

自动化学报

2022年第10期

浏览历史

内容加载中请稍等...

一种用于两人零和博弈对手适应的元策略演化学习算法被引量：1

参考文献6

二级参考文献198

共引文献256

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种用于两人零和博弈对手适应的元策略演化学习算法 被引量：1

参考文献6

二级参考文献198

共引文献256

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种用于两人零和博弈对手适应的元策略演化学习算法被引量：1