智能博弈对抗方法:博弈论与强化学习综合视角对比分析被引量：13

Methods in Adversarial Intelligent Game:A Holistic Comparative Analysis from Perspective of Game Theory and Reinforcement Learning

下载PDF

导出

摘要智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题。以反事实后悔最小化算法为代表的博弈论方法和以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联缺乏深入发掘。文中针对智能博弈对抗问题,定义智能博弈对抗的内涵与外延,梳理智能博弈对抗的发展历程,总结其中的关键挑战。从博弈论和强化学习两种视角出发,介绍智能博弈对抗模型、算法。多角度对比分析博弈理论和强化学习的优势与局限,归纳总结博弈理论与强化学习统一视角下的智能博弈对抗方法和策略求解框架,旨在为两种范式的结合提供方向,推动智能博弈技术前向发展,为迈向通用人工智能蓄力。 Adversarial intelligent game is an advanced research in decision-making problem of intelligence cognitive.With the support of large computing power,game theory and reinforcement learning represented by counterfactual regret minimization and fictitious self-play respectively,are state-of-the-art approaches in searching strategies.However,the relationship between these two paradigms is not entirely explored.For adversarial intelligent game problems,this paper defines the connotation and extension of adversarial intelligent game,studies the development history of adversarial intelligent game,and summarizes the key challenges.From the perspectives of game theory and reinforcement learning,the models and algorithms of intelligent game are introduced.This paper conducts a comparative study from game theory and reinforcement learning,including the methods and framework,the main purpose is to promote the advance of intelligent game,and lay a foundation for the development of general artificial intelligence.

作者袁唯淋罗俊仁陆丽娜陈佳星张万鹏陈璟 YUAN Wei-lin;LUO Jun-ren;LU Li-na;CHEN Jia-xing;ZHANG Wan-peng;CHEN Jing(College of Intelligence Science and Technology,National University of Defense Technology,Changsha 410073,China)

机构地区国防科技大学智能科学学院

出处《计算机科学》 CSCD 北大核心 2022年第8期191-204,共14页 Computer Science

基金国家自然科学基金(61702528,61806212,62173336)。

关键词智能博弈对抗反事实后悔值最小化虚拟自博弈纳什均衡强化学习 Adversarial intelligent game Counterfactual regret minimization Fictitious self-play Nash equilibrium Reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1黄凯奇,兴军亮,张俊格,倪晚成,徐博.人机对抗智能技术[J].中国科学：信息科学,2020,50(4):540-550. 被引量：28
2王震,袁勇,安波,李明楚,王飞跃.安全博弈论研究综述[J].指挥与控制学报,2015,1(2):121-149. 被引量：13
3李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：21
4胡晓峰,荣明.作战决策辅助向何处去——“深绿”计划的启示与思考[J].指挥与控制学报,2016,2(1):22-25. 被引量：45
5刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：468
6赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
7袁唯淋,廖志勇,高巍,魏婷婷,罗俊仁,张万鹏,陈璟.计算机扑克智能博弈研究综述[J].网络与信息安全学报,2021,7(5):57-76. 被引量：3
8曹雷.基于深度强化学习的智能博弈对抗关键技术[J].指挥信息系统与技术,2019,10(5):1-7. 被引量：44

二级参考文献218

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2曾鹏,吴玲达,魏迎梅.战术计划识别模型的分析、描述与设计[J].计算机与数字工程,2006,34(9):1-4. 被引量：5
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
4Von S H. Marktform und gleichgewicht[M]. New York: Springer, 1934.
5Wang F Y. A coordination theory for intelligent machines[J] The IFAC Journal Automa-tica, 1990, 26(5): 55-60.
6Conitzer V, Sandholm T. Computing the optimal strategy to commit to[C]//Proceedings of the 7th ACM Conference on Electronic Commerce (EC'06). Ann Arbor, Michigan, USA, 2006: 82-90.
7Paruchuri P, Pearce J P. Playing games for security: an efficient exact algorithm for solving bayesian stackelberg games[C]//Proceedings of the 7th International Joint Con- ference on Autonomous Agents and Multiagent Systems (AAMAS'08). Estoril, Portugal, 2008: 895-902.
8Pita J, Jain M. Using game theory for los angeles airport security[J]. AI Magazine, 2009, 30(1): 43-57.
9Tsai J, Kiekintveld C. IRIS-a tool for strategic security allocation in transportation networks[C]// Proceedings of The 8th International Conference on Autonomous Agents and Multiagent Systems (AAMAS'09). Budapest, Hungary, 2009: 37-44.
10Shieh E, An B. Portect: A deployed game theoretic sys- tem to protect the ports of the United States[C]// Pro- ceedings of the llth International Conference on Au- tonomous Agents and Multiagent Systems(AAMAS'12). Va- lencia, Spain, 2012: 13-20.

共引文献698

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
3李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：21
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
6舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
7周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：6
8李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
9王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
10刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2

同被引文献158

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：21
2王钦钊,多南讯,吕强,杨奇东.基于强化学习的多智能体合作博弈对抗算法[J].装甲兵学报,2022(5):80-85. 被引量：4
3肖云鹏,张兰,张轩,刘起兴.包含独立储能的现货电能量与调频辅助服务市场出清协调机制[J].中国电机工程学报,2020,40(S01):167-180. 被引量：60
4贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：90
5柯加山,江敬灼,许仁杰,李梦汶,黄谦.联合作战体系对抗效能评估探索性分析框架[J].军事运筹与系统工程,2005,19(4):58-61. 被引量：15
6李玉忍,杨金孝,张兴国,齐蓉,林辉.基于迭代学习的PID控制研究[J].计算机工程与科学,2007,29(4):98-100. 被引量：4
7李必文.线性广义系统的P型、PD型和PID型迭代学习控制[J].数学杂志,2008,28(6):667-672. 被引量：15
8陈学松,杨宜民.基于执行器-评价器学习的自适应PID控制[J].控制理论与应用,2011,28(8):1187-1192. 被引量：14
9黎湘,范梅梅.认知雷达及其关键技术研究进展[J].电子学报,2012,40(9):1863-1870. 被引量：77
10王沙飞,鲍雁飞,李岩.认知电子战体系结构与技术[J].中国科学：信息科学,2018,48(12):1603-1613. 被引量：61

引证文献13

1徐志雄,李爱玲,苟小涛.基于历史回报引导探索策略的机器人智能博弈对抗研究[J].军事运筹与评估,2023,38(2):42-46.
2王健,杨渡佳,黄科举,李小帅,杨俊安.认知电子战发展趋势:从单体智能到群体智能[J].信息对抗技术,2023,2(4):151-170. 被引量：4
3廖登宇,张震,赵德京,崔浩岩.基于多智能体深度强化学习的机器人协作搬运方法[J].电子设计工程,2023,31(23):7-11.
4张国辉,高昂,张雅楠.基于RLoMAG+EAS的同构集群装备体系作战效能评估方法[J].系统仿真学报,2024,36(1):160-169.
5李超英,檀勤良.基于智能体建模的新型电力系统下火电企业市场交易策略[J].中国电力,2024,57(2):212-225. 被引量：2
6姜忠龙,邓德位.军事信息系统人工智能对抗技术研究[J].舰船电子工程,2023,43(11):27-32.
7黄飞虎,李沛东,彭舰,董石磊,赵红磊,宋卫平,李强.计及风电的发电商报价多智能体模型[J].计算机科学,2024,51(S01):1183-1190.
8张研,刘晓群.基于生成对抗网络的面部图像修复算法研究[J].河北建筑工程学院学报,2024,42(2):223-228.
9张耐民,蔡秉辰,于浛,刘海阔.基于多智能体强化学习的对抗博弈技术综述[J].海军航空大学学报,2024,39(4):395-410.
10刘军.量子智能博弈的概念架构、实验进展及应用展望[J].国防科技,2024,45(4):12-21.

二级引证文献6

1闫宽,赵江鸿.基于群体智能算法的羽毛球战术分析与优化研究[J].文体用品与科技,2023(22):187-189.
2崔玉伟,孙雪.作动器故障下的无人机容错控制方法[J].海军航空大学学报,2023,38(6):449-456.
3刘文斌,吉磊,范平志,丁建锋.美军认知电子战关键技术发展方向分析[J].通信技术,2024,57(3):299-308. 被引量：1
4田殿鹏.基于负荷侧调节能力的电力市场交易类型研究[J].自动化应用,2024,65(6):203-205.
5李佳蔚,张冠宇.大规模分布式新能源接入对省级电网稳定性影响[J].中国电力,2024,57(6):174-180.
6杨洋,王烨,康大勇,陈嘉玉,李姜,赵华栋.基于强化学习的多智能体协同电子对抗方法[J].兵器装备工程学报,2024,45(7):1-10.

1吴翠花,王玉辰,刘艳辉,孙月峰.基于演化博弈的众包组织模式形成机理研究[J].科学决策,2019,0(12):47-60. 被引量：3
2李婷婷,刁联旺.智能化态势认知技术与发展建议[J].指挥信息系统与技术,2020,11(2):55-58. 被引量：16
3张超.健康产业协同发展现状与对策研究[J].益寿宝典,2022(10):41-43.
4许红花,张健.基于CiteSpace的我国语言能力研究可视化分析[J].延边大学学报（社会科学版）,2022,55(3):64-72. 被引量：2
5徐明.“AI+5G”视域下的外语云教学模式探索[J].江苏外语教学研究,2022(2):6-9.
6吴晓鸰,于龙海,凌捷.基于信噪比的延时攻击防御方法研究[J].计算机应用与软件,2022,39(5):330-335. 被引量：2
7段玉兰,王勇.考虑电商平台服务投资的平台渠道引入策略[J].中国管理科学,2022,30(5):167-179. 被引量：9
8王峰,李培,徐锋.新一代雷达电磁空间深蓝博弈技术需求分析[J].中国电子科学研究院学报,2021,16(12):1195-1200. 被引量：3
9张平,蒋丽,杨金学,苏钲雄,王建强,施坦,卢晨阳.核用难熔高熵合金的研究进展[J].材料导报,2022,36(14):1-22. 被引量：7
10宋慧琳.基于碳限额政策的供应链减排创新决策博弈研究[J].运筹与模糊学,2022,12(2):508-517.

计算机科学

2022年第8期

浏览历史

内容加载中请稍等...

智能博弈对抗方法:博弈论与强化学习综合视角对比分析被引量：13

参考文献8

二级参考文献218

共引文献698

同被引文献158

引证文献13

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

智能博弈对抗方法:博弈论与强化学习综合视角对比分析 被引量：13

参考文献8

二级参考文献218

共引文献698

同被引文献158

引证文献13

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

智能博弈对抗方法:博弈论与强化学习综合视角对比分析被引量：13