纯策略纳什均衡的博弈强化学习被引量：1

Game Reinforcement Learning of Pure Strategy Nash Equilibrium

下载PDF

导出

摘要将博弈理论与多智能体强化学习结合形成博弈强化学习逐渐受到关注,但是也存在算法的计算复杂度高和无法保证纯策略纳什均衡的问题。Meta equilibrium Q-learning算法通过反应函数将原始博弈转换为元博弈,而元博弈推导出的元均衡是纯策略纳什均衡。该算法在保证纯策略纳什均衡的前提下能够使得每个智能体的回报不低于某特定阈值。同时,基于分形的均衡程度评估模型能够通过计算任意状态的分形维数来判断其稳态,并评估任意状态与均衡状态之间的距离,该模型可以检验元均衡的科学性与合理性,上述算法和模型的相关结论在福利博弈和夺控战中都得到具体验证。 The combination of game theory and multi-agent reinforcement learning to form game reinforcement learning has gradually attracted attention,but there are also problems of high computational complexity of algorithms and inability to guarantee purestrategy Nash equilibrium.The meta-equilibrium Q-learning algorithm converts the original game into a meta-game through the reaction function,and the meta-equilibrium derived from the meta-game is a pure-strategy Nash equilibrium.Under the premise of ensuring the purestrategy Nash equilibrium,the rewards of each agent can larger than a certain threshold.At the same time,the fractal-based equilibrium degree evaluation model can judge the stability of any states by calculating the fractal dimension,and evaluate the distance between the arbitrary states and the equilibrium state.This model can test the scientificity and rationality of the meta-equilibrium.The relevant conclusions of the algorithm and model have been specifically verified in the welfare game and the control war.

作者王军曹雷陈希亮陈英赵芷若 WANG Jun;CAO Lei;CHEN Xiliang;CHEN Ying;ZHAO Zhiruo(College of Command Information System,Army Engineering University,Nanjing 210007,China;Postdoctoral Research Workstation of Eastern Theater General Hospital,Nanjing 210002,China)

机构地区陆军工程大学指挥控制工程学院东部战区总医院博士后科研工作站

出处《计算机工程与应用》 CSCD 北大核心 2022年第15期78-86,共9页 Computer Engineering and Applications

基金国家自然科学基金(61806221) 国家部委预研基金。

关键词纯策略纳什均衡强化学习博弈论分形 pure strategy Nash equilibrium reinforcement learning game theory fractal

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66
2王军,曹雷,陈希亮,赖俊,章乐贵.多智能体博弈强化学习研究综述[J].计算机工程与应用,2021,57(21):1-13. 被引量：13
3Jun Wang,Kui Yao,Yongshun Liang.On the Connection between the Order of Riemann-Liouvile Fractional Calculus and Hausdorff Dimension of a Fractal Function[J].Analysis in Theory and Applications,2016,32(3):283-290. 被引量：2

二级参考文献5

1吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
2陈希亮,曹雷,何明,李晨溪,徐志雄.深度逆向强化学习研究综述[J].计算机工程与应用,2018,54(5):24-35. 被引量：18
3李杨,徐峰,谢光强,黄向龙.多智能体技术发展及其应用综述[J].计算机工程与应用,2018,54(9):13-21. 被引量：39
4韩凯,孙金生.带虚拟领导者的多智能体系统的非光滑一致性[J].计算机工程与应用,2019,55(8):147-150. 被引量：1
5孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66

共引文献73

1汪光丽.阿拉斯加北部斜坡水平井生产测井技术评价[J].测井与射孔,2000(1):57-64.
2彭京亮.一种快速的扫描铅笔稿图细化算法[J].中国图象图形学报（A辑）,2000,5(5):434-439. 被引量：3
3刘炎培,朱淇,赵进超.边缘环境下计算密集型应用的卸载技术研究[J].计算机工程与应用,2020,56(15):1-14. 被引量：4
4曾隽芳,牟佳,刘禹.多智能体群智博弈策略轻量化问题[J].指挥与控制学报,2020,6(4):381-387. 被引量：9
5刘强,姜峰.基于深度强化学习的群体对抗策略研究[J].智能计算机与应用,2020,10(5):291-296. 被引量：2
6高昂,董志明,李亮,宋敬华,段莉.MADDPG算法并行优先经验回放机制[J].系统工程与电子技术,2021,43(2):420-433. 被引量：9
7蒋白桦,吕雪峰,刘玉龙.基于智能体的石化智能工厂信息物理系统实现研究[J].化工学报,2021,72(3):1575-1584. 被引量：7
8常松丽,陈立潮,潘理虎.基于多智能体建模的在线学习交互形式化[J].电子技术与软件工程,2021(2):86-88.
9陈瑜,沈昳婷,廖羽洁.基于多智能体的分布式音乐灯光控制系统研究[J].数码设计,2021,10(11):62-62. 被引量：1
10许雄,吴若无,汪亚,韩慧,曾勇虎,汪连栋.面向体系对抗的电磁环境模拟技术研究[J].航天电子对抗,2021,37(2):1-5.

同被引文献10

1贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：90
2柯加山,江敬灼,许仁杰,李梦汶,黄谦.联合作战体系对抗效能评估探索性分析框架[J].军事运筹与系统工程,2005,19(4):58-61. 被引量：15
3杨克巍,杨志伟,谭跃进,赵青松.面向体系贡献率的装备体系评估方法研究综述[J].系统工程与电子技术,2019,41(2):311-321. 被引量：67
4袁宏皓,袁成.体系效能评估技术发展综述[J].飞航导弹,2019,0(5):63-67. 被引量：15
5梁晓龙,胡利平,张佳强,柏鹏,任宝祥,李哲,何吕龙.航空集群自主空战研究进展[J].科技导报,2020,38(15):74-88. 被引量：14
6雷永林,朱智,甘斌,雷森,陈永.基于仿真的复杂武器系统作战效能评估框架研究[J].系统仿真学报,2020,32(9):1654-1663. 被引量：20
7刘德胜.基于复杂网络分析方法的作战体系评估研究综述[J].军事运筹与系统工程,2020,34(3):66-73. 被引量：19
8杨圩生,王钰,杨洋,唐亮.基于作战环的不同节点攻击策略下的作战网络效能评估[J].系统工程与电子技术,2021,43(11):3220-3228. 被引量：15
9张子伟,郭齐胜,董志明,高昂,王艺霏.体系作战效能评估与优化方法综述[J].系统仿真学报,2022,34(2):303-313. 被引量：19
10袁唯淋,罗俊仁,陆丽娜,陈佳星,张万鹏,陈璟.智能博弈对抗方法:博弈论与强化学习综合视角对比分析[J].计算机科学,2022,49(8):191-204. 被引量：13

引证文献1

1张国辉,高昂,张雅楠.基于RLoMAG+EAS的同构集群装备体系作战效能评估方法[J].系统仿真学报,2024,36(1):160-169.

1祝瑜晗,吕光明.城镇化进程中人口流动的主观福利效应考察[J].统计研究,2020,37(10):115-128. 被引量：9
2江楠,郑煜,张小宁.基于博弈的私营-公有混合路网定价[J].上海大学学报（自然科学版）,2020,26(3):342-352.
3郭怡,吉跃,丁宇,吕翔.具有一般反应函数的随机恒化器模型的动力学行为[J].上海师范大学学报（自然科学版）,2022,51(3):269-276.
4姚维,黄俊.移动边缘计算中的无人机群协同任务卸载策略研究[J].重庆邮电大学学报（自然科学版）,2022,34(3):507-514. 被引量：9
5胡兵兵,唐嘉辉,武吉梅,刘杰.基于Triple GAN的滚动轴承故障诊断方法研究[J].噪声与振动控制,2021,41(4):109-114. 被引量：2
6曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：3
7穆鑫.上市公司全面预算管理体系的设计思路及实施路径探讨[J].企业改革与管理,2022(12):124-126. 被引量：3
8王慧,秦广义,夏鹏,杨春梅,王刚.基于改进强化学习算法的移动机器人路径规划研究[J].计算机应用与软件,2022,39(7):269-274. 被引量：2
9杨敏,李宏伟,任怡凤,张聪伟.基于旅客异质性画像的公铁联程出行方案推荐方法[J].清华大学学报（自然科学版）,2022,62(7):1220-1227. 被引量：6
10还婧文,杨少石,袁田浩,孟阔,毕嘉辉,唐玉蓉.一类基于定向Q-Learning的后5G无线网络上下行多业务并发功率分配方法[J].中国传媒大学学报（自然科学版）,2022,29(2):27-33.

计算机工程与应用

2022年第15期

浏览历史

内容加载中请稍等...

纯策略纳什均衡的博弈强化学习被引量：1

参考文献3

二级参考文献5

共引文献73

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

纯策略纳什均衡的博弈强化学习 被引量：1

参考文献3

二级参考文献5

共引文献73

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

纯策略纳什均衡的博弈强化学习被引量：1