期刊文献+
共找到223篇文章
< 1 2 12 >
每页显示 20 50 100
Data-based Optimal Control for Discrete-time Zero-sum Games of 2-D Systems Using Adaptive Critic Designs 被引量:8
1
作者 WEI Qing-Lai ZHANG Hua-Guang CUI Li-Li 《自动化学报》 EI CSCD 北大核心 2009年第6期682-692,共11页
关键词 自适应系统 最优控制 离散时间 自动化系统
下载PDF
Polynomial Time Method for Solving Nash Equilibria of Zero-Sum Games
2
作者 Yoshihiro Tanaka Mitsuru Togashi 《American Journal of Computational Mathematics》 2021年第1期23-30,共8页
There are a few studies that focus on solution methods for finding a Nash equilibrium of zero-sum games. We discuss the use of Karmarkar’s interior point method to solve the Nash equilibrium problems of a zero-sum ga... There are a few studies that focus on solution methods for finding a Nash equilibrium of zero-sum games. We discuss the use of Karmarkar’s interior point method to solve the Nash equilibrium problems of a zero-sum game, and prove that it is theoretically a polynomial time algorithm. We implement the Karmarkar method, and a preliminary computational result shows that it performs well for zero-sum games. We also mention an affine scaling method that would help us compute Nash equilibria of general zero-sum games effectively. 展开更多
关键词 zero-sum games Nash Equilibria Karmarkar’s Method Polynomial Time
下载PDF
Interactive Fuzzy Approaches for Solving Multiobjective Two-Person Zero-Sum Games
3
作者 Hitoshi Yano Ichiro Nishizaki 《Applied Mathematics》 2016年第5期387-398,共12页
In this paper, we consider multiobjective two-person zero-sum games with vector payoffs and vector fuzzy payoffs. We translate such games into the corresponding multiobjective programming problems and introduce the pe... In this paper, we consider multiobjective two-person zero-sum games with vector payoffs and vector fuzzy payoffs. We translate such games into the corresponding multiobjective programming problems and introduce the pessimistic Pareto optimal solution concept by assuming that a player supposes the opponent adopts the most disadvantage strategy for the self. It is shown that any pessimistic Pareto optimal solution can be obtained on the basis of linear programming techniques even if the membership functions for the objective functions are nonlinear. Moreover, we propose interactive algorithms based on the bisection method to obtain a pessimistic compromise solution from among the set of all pessimistic Pareto optimal solutions. In order to show the efficiency of the proposed method, we illustrate interactive processes of an application to a vegetable shipment problem. 展开更多
关键词 Multiobjective Two-Person zero-sum games LR Fuzzy Numbers Fuzzy Payoff Matrices Fuzzy Goals Possibility Measure Pareto Optimal Solutions Linear Programming
下载PDF
Research on Different Heuristics for Minimax Algorithm Insight from Connect-4 Game 被引量:2
4
作者 Xiyu Kang Yiqi Wang Yanrui Hu 《Journal of Intelligent Learning Systems and Applications》 2019年第2期15-31,共17页
Minimax algorithm and machine learning technologies have been studied for decades to reach an ideal optimization in game areas such as chess and backgammon. In these fields, several generations try to optimize the cod... Minimax algorithm and machine learning technologies have been studied for decades to reach an ideal optimization in game areas such as chess and backgammon. In these fields, several generations try to optimize the code for pruning and effectiveness of evaluation function. Thus, there are well-armed algorithms to deal with various sophisticated situations in gaming occasion. However, as a traditional zero-sum game, Connect-4 receives less attention compared with the other members of its zero-sum family using traditional minimax algorithm. In recent years, new generation of heuristics is created to address this problem based on research conclusions, expertise and gaming experiences. However, this paper mainly introduced a self-developed heuristics supported by well-demonstrated result from researches and our own experiences which fighting against the available version of Connect-4 system online. While most previous works focused on winning algorithms and knowledge based approaches, we complement these works with analysis of heuristics. We have conducted three experiments on the relationship among functionality, depth of searching and number of features and doing contrastive test with sample online. Different from the sample based on summarized experience and generalized features, our heuristics have a basic concentration on detailed connection between pieces on board. By analysing the winning percentages when our version fights against the online sample with different searching depths, we find that our heuristics with minimax algorithm is perfect on the early stages of the zero-sum game playing. Because some nodes in the game tree have no influence on the final decision of minimax algorithm, we use alpha-beta pruning to decrease the number of meaningless node which greatly increases the minimax efficiency. During the contrastive experiment with the online sample, this paper also verifies basic characters of the minimax algorithm including depths and quantity of features. According to the experiment, these two characters can both effect the decision for each step and none of them can be absolutely in charge. Besides, we also explore some potential future issues in Connect-4 game optimization such as precise adjustment on heuristic values and inefficiency pruning on the search tree. 展开更多
关键词 HEURISTICS MINIMAX Algorithm zero-sum game Connect-4 game
下载PDF
基于多人零和博弈的模块化机器人系统近似最优控制
5
作者 董博 朱新野 +1 位作者 马冰 安天骄 《长春工业大学学报》 CAS 2024年第2期114-124,共11页
提出一种基于多人零和博弈的模块化机器人(Modular Robot Manipulators, MRMs)系统近似最优控制方法。建立了具有交联耦合(Interconnected Dynamic Couplings, IDC)的模块化机器人系统动力学模型。将机器人系统的控制律和IDC效应作为零... 提出一种基于多人零和博弈的模块化机器人(Modular Robot Manipulators, MRMs)系统近似最优控制方法。建立了具有交联耦合(Interconnected Dynamic Couplings, IDC)的模块化机器人系统动力学模型。将机器人系统的控制律和IDC效应作为零和博弈的参与者,MRM系统的最优跟踪控制问题转化为多人零和博弈问题。根据自适应动态规划(Adaptive Dynamic Programming, ADP)算法,通过建立评判神经网络求解哈密顿-雅克比-埃塞克斯(Hamilton-Jacobi-Issacs, HJI)方程,推导出最优控制律。基于李雅普诺夫定理,证明了闭环机器人系统是渐近稳定的,最后通过实验验证了所提控制方法的有效性。 展开更多
关键词 自适应动态规划 模块化机器人 多人零和博弈 最优控制
下载PDF
Zero-Sum Stochastic Games with Average Payoffs:New Optimality Conditions 被引量:1
6
作者 Jie YANG Xian Ping GUO 《Acta Mathematica Sinica,English Series》 SCIE CSCD 2009年第7期1201-1216,共16页
In this paper we study zero-sum stochastic games. The optimality criterion is the long-run expected average criterion, and the payoff function may have neither upper nor lower bounds. We give a new set of conditions f... In this paper we study zero-sum stochastic games. The optimality criterion is the long-run expected average criterion, and the payoff function may have neither upper nor lower bounds. We give a new set of conditions for the existence of a value and a pair of optimal stationary strategies. Our conditions are slightly weaker than those in the previous literature, and some new sufficient conditions for the existence of a pair of optimal stationary strategies are imposed on the primitive data of the model. Our results are illustrated with a queueing system, for which our conditions are satisfied but some of the conditions in some previous literatures fail to hold. 展开更多
关键词 zero-sum stochastic games countable state space expected average criterion new condi- tion a pair of optimal stationary strategies
原文传递
面向6G的生成对抗网络研究进展综述 被引量:1
7
作者 孟婵媛 熊轲 +2 位作者 高博 张煜 樊平毅 《物联网学报》 2024年第1期1-16,共16页
人工智能(AI,artificial intelligence)与通信技术的深度融合是6G网络的典型特征。一方面,AI为6G网络发展注入了新动力,能够有效利用网络运行产生的历史数据,使网络具备自维护、自优化的功能,加速了网络智能化进程。另一方面,6G网络丰... 人工智能(AI,artificial intelligence)与通信技术的深度融合是6G网络的典型特征。一方面,AI为6G网络发展注入了新动力,能够有效利用网络运行产生的历史数据,使网络具备自维护、自优化的功能,加速了网络智能化进程。另一方面,6G网络丰富的场景和大规模的物联设备入网应用为AI提供了广阔的应用渠道和海量的训练数据,使AI能够更好地训练和部署,充分发挥AI的内在优势,为用户提供更加优质的智能服务。尽管如此,在一些实际应用中,受复杂环境的影响,存在数据样本收集困难、收集成本高和样本普适性不足等问题,难以充分发挥AI的性能优势。为此,学术界和工业界将生成对抗网络(GAN,generative adversarial network)引入无线网络的设计中,利用GAN强大的特征学习和特征表达能力产生大量模拟实际的生成样本,实现无线数据库的扩充,从而有效提升面向无线网络的AI模型的泛化能力。由于其优秀的性能表现,以GAN为代表的生成式模型在无线网络领域受到越来越多的关注,并迅速发展成为6G网络新的研究热点。首先,综述了GAN的原理及其改进衍生模型,对各种衍生模型的框架及优缺点进行了分析归纳;然后,综述了这些模型在无线网络领域的研究及应用现状;最后,面向6G网络的需求展望了GAN在6G网络中的研究趋势,为未来的研究提供了一些有价值的探索。 展开更多
关键词 生成对抗网络 无线网络 信道估计 物理层安全 无线感知 零和博弈
下载PDF
基于双人零和博弈的孤岛微电网有界L2增益负荷频率控制 被引量:1
8
作者 李寅生 王冰 +1 位作者 陈玉全 黄浩乾 《电力系统自动化》 EI CSCD 北大核心 2024年第3期93-102,共10页
针对含不确定建模误差和新能源接入的孤岛微电网,提出了一种结合有界L2增益基线控制和扰动补偿的综合负荷频率控制(LFC)方法。首先,推导了微电网的全驱模型,将建模误差和新能源的影响总结成一个综合扰动。为提高系统的鲁棒性,该综合扰... 针对含不确定建模误差和新能源接入的孤岛微电网,提出了一种结合有界L2增益基线控制和扰动补偿的综合负荷频率控制(LFC)方法。首先,推导了微电网的全驱模型,将建模误差和新能源的影响总结成一个综合扰动。为提高系统的鲁棒性,该综合扰动被定义成控制信号的对手玩家。进一步,关于扰动抑制的有界L2增益问题被等价成求解综合扰动和控制信号的零和博弈Nash均衡,由此推导出有界L2增益基线控制器。为改善频率的二次控制,设计了基于五阶广义积分观测器的扰动补偿控制,并在此基础上引入了一种针对发电速率约束(GRC)的新型抗发电速率约束(anti-GRC)措施。最后,搭建了16 MW的新能源-柴油混合微电网仿真模型,并在多种工况下对所提出的综合LFC方法进行测试,验证了其有效性。 展开更多
关键词 孤岛微电网 负荷频率控制 零和博弈 有界L2增益 扰动补偿控制 发电速率约束
下载PDF
两方零和马尔科夫博弈策略梯度算法及收敛性分析
9
作者 王卓 李永强 +1 位作者 冯宇 冯远静 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第3期480-491,共12页
为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定... 为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定理,并通过近似随机策略梯度的推导,为算法实施提供可行性基础.通过比较分析不同的最大最小问题梯度更新方法,发现额外梯度相较于其他方法具有更好的收敛性能.基于这一发现,提出基于额外梯度的近似纳什均衡策略优化算法,并给出算法的收敛性证明.在Oshi-Zumo游戏上,使用表格式softmax参数化策略以及神经网络作为参数化策略,验证不同游戏规模场景下算法的有效性.通过对比实验,验证算法相对于其他方法的收敛性和优越性. 展开更多
关键词 两方零和马尔科夫博弈 强化学习 策略优化 额外梯度 纳什均衡 神经网络
下载PDF
主观社会阶层与道德判断的关系:独立型自我构念与零和博弈信念的链式中介作用
10
作者 胡汉玉 彭明 陈天龙 《心理科学》 CSCD 北大核心 2024年第3期688-694,共7页
本研究选取523名被试,进行道德判断、主观社会阶层、自我构念与零和博弈信念的测量,以探讨主观社会阶层与道德判断之间的中介机制。结果表明:(1)主观社会阶层显著正向预测功利型道德判断;(2)独立型自我构念和零和博弈信念在主观社会阶... 本研究选取523名被试,进行道德判断、主观社会阶层、自我构念与零和博弈信念的测量,以探讨主观社会阶层与道德判断之间的中介机制。结果表明:(1)主观社会阶层显著正向预测功利型道德判断;(2)独立型自我构念和零和博弈信念在主观社会阶层预测功利型道德判断中起到链式中介作用;(3)零和博弈信念在主观社会阶层和道德判断中起遮掩作用。本研究有助于研究者深入了解社会性因素影响道德判断的机制。 展开更多
关键词 主观社会阶层 自我构念 零和博弈信念 道德判断
下载PDF
跨越零和:基于增长联盟的市-区府际治理创新——以南京河西新城为例 被引量:4
11
作者 胡嘉佩 张京祥 《现代城市研究》 CSSCI 北大核心 2015年第2期40-45,共6页
改革开放以来,"促进增长政体"的形成既催生了府际博弈,也蕴藏了构筑基于增长联盟的府际合作的可能性。本文以南京河西新城为例,深入探讨基于快速推进城市增长的目标,市-区两级政府如何利用互惠共赢的利益基础、主动持续的合... 改革开放以来,"促进增长政体"的形成既催生了府际博弈,也蕴藏了构筑基于增长联盟的府际合作的可能性。本文以南京河西新城为例,深入探讨基于快速推进城市增长的目标,市-区两级政府如何利用互惠共赢的利益基础、主动持续的合作实践以及灵活柔性的协调机制,来实现府际治理创新。文章最后指出,基于增长联盟的府际合作虽能有效规避府际矛盾,但从单一目标的"增长型联盟"向综合目标的"发展型联盟"的深刻变革才是应有方向。 展开更多
关键词 零和博弈 增长联盟 府际治理 地方政府 南京河西新城
下载PDF
考虑时滞效应与均值-方差效用的非零和投资与再保险博弈 被引量:2
12
作者 朱怀念 钟慧 宾宁 《运筹学学报》 CSCD 北大核心 2021年第2期35-54,共20页
在考虑时滞效应的影响下研究了非零和随机微分投资与再保险博弈问题。以最大化终端绝对财富和相对财富的均值-方差效用为目标,构建了两个相互竞争的保险公司之间的非零和投资与再保险博弈模型,分别在经典风险模型和近似扩散风险模型下... 在考虑时滞效应的影响下研究了非零和随机微分投资与再保险博弈问题。以最大化终端绝对财富和相对财富的均值-方差效用为目标,构建了两个相互竞争的保险公司之间的非零和投资与再保险博弈模型,分别在经典风险模型和近似扩散风险模型下探讨了博弈的Nash均衡策略。借助随机控制理论以及相应的广义Hamilton-Jacobi-Bellman (HJB)方程,得到了均衡投资与再保险策略和值函数的显式表达。最后,通过数值例子分析了模型中相关参数变动对均衡策略的影响。 展开更多
关键词 投资与再保险 非零和博弈 时滞效应 均值-方差效用 广义Hamilton-Jacobi-Bellman方程
下载PDF
Z时代青年“外佛内卷”现象的成因和对策 被引量:1
13
作者 张琳 黄闪闪 《广州开放大学学报》 2024年第1期36-40,108,109,共7页
“外佛内卷”是Z时代青年学业消极情绪中的一种重要体现。作为“佛系”与“内卷”的概念矛盾体,“外佛内卷”从多个维度呈现出不同的类型。“外佛内卷”现象是过度“内卷”的再生产,非此即彼的零和博弈思维是过度“内卷”的内因。“外... “外佛内卷”是Z时代青年学业消极情绪中的一种重要体现。作为“佛系”与“内卷”的概念矛盾体,“外佛内卷”从多个维度呈现出不同的类型。“外佛内卷”现象是过度“内卷”的再生产,非此即彼的零和博弈思维是过度“内卷”的内因。“外佛内卷”现象是假性“佛性”的新形态,应然和实然的落差是假性“佛性”的外因。实现青年群体间的良性互动,需要培养青年人的共同体思维,同时明确自我定位,做好个人规划。 展开更多
关键词 外佛内卷 零和博弈 学习共同体
下载PDF
FC-空间的一个极大极小不等式及应用 被引量:3
14
作者 王彬 《内江师范学院学报》 2009年第2期17-19,共3页
运用FC-空间中的一个极大极小不等式,对FC-空间中的抽象变分不等式和似变分不等式解的存在性,Ky Fan型截口定理,以及具有扰动的二人零和博弈存在性进行研究,从而得到没有线性结构的FC-空间中一些新的抽象变分不等式和似变分不等式解的... 运用FC-空间中的一个极大极小不等式,对FC-空间中的抽象变分不等式和似变分不等式解的存在性,Ky Fan型截口定理,以及具有扰动的二人零和博弈存在性进行研究,从而得到没有线性结构的FC-空间中一些新的抽象变分不等式和似变分不等式解的存在性结果和一Ky Fan型截口定理.最后得到了一个具有扰动的二人零和博弈的存在性结果. 展开更多
关键词 FC-空间 极大极小不等式 变分不等式 零和博弈 零调集 KY Fan型截口定理
下载PDF
国际大变局背景下美国贸易政策转向及影响研究
15
作者 鲁欣 《对外经贸实务》 2024年第2期68-76,共9页
2016年美国大选后,其贸易政策格局发生了深刻变化。特朗普推行“美国优先”的保护主义政策,尤其是通过“301调查”对中国产品征税引发了美中贸易战。作为继任者,拜登政府没有推动“自由”贸易和多边贸易改革,而是继续推行前任的民族主... 2016年美国大选后,其贸易政策格局发生了深刻变化。特朗普推行“美国优先”的保护主义政策,尤其是通过“301调查”对中国产品征税引发了美中贸易战。作为继任者,拜登政府没有推动“自由”贸易和多边贸易改革,而是继续推行前任的民族主义政策,并且联合盟友对中国“脱钩断链”。文章通过对特朗普和拜登政府贸易政策的梳理,分析其政策转向的经济与地缘影响,研判美国贸易政策的未来走向,最后为我国外贸发展提出对策建议。面对如今百年未有之大变局,世界经济的相互联系比以往任何时候都更加紧密,保护主义只能使世界变得更缺乏弹性、更加不平等、更容易发生冲突。中国需要在推动“一带一路”共建、新兴市场及发展中国家合作、世贸组织改革等方面进一步发挥大国作用,为世界发展提供新机遇和新动能。 展开更多
关键词 贸易政策 产业政策 供应链 保护主义 零和博弈
下载PDF
多无人机系统在线强化学习最优安全跟踪控制
16
作者 弓镇宇 杨飞生 《航空科学技术》 2024年第4期25-30,共6页
在无人机(UAV)编队跟踪任务中,虚假数据注入(FDI)攻击者可向控制指令注入误导性数据,导致无人机无法形成指定的编队构型,故需设计安全编队跟踪控制器。为此,本文利用零和图博弈对攻防过程进行建模,其中FDI攻击者和安全控制器是博弈的参... 在无人机(UAV)编队跟踪任务中,虚假数据注入(FDI)攻击者可向控制指令注入误导性数据,导致无人机无法形成指定的编队构型,故需设计安全编队跟踪控制器。为此,本文利用零和图博弈对攻防过程进行建模,其中FDI攻击者和安全控制器是博弈的参与者,攻击者的目标是最大化设定的成本函数,而安全控制器的目标与之相反,求解博弈并获得最优安全控制策略依赖于求取Hamilton-Jacobi-Isaacs(HJI)方程的解。而HJI方程是耦合偏微分方程,难以直接求解,因此结合经验回放机制引入了有限时间收敛的在线强化学习算法,设计了单评价神经网络近似值函数并获得了最优安全控制策略。最终利用仿真验证了算法的有效性。 展开更多
关键词 FDI攻击 多无人机 在线强化学习 优化控制 零和图博弈
下载PDF
Adaptive dynamic programming for online solution of a zero-sum differential game 被引量:10
17
作者 Draguna VRABIE Frank LEWIS 《控制理论与应用(英文版)》 EI 2011年第3期353-360,共8页
This paper will present an approximate/adaptive dynamic programming(ADP) algorithm,that uses the idea of integral reinforcement learning(IRL),to determine online the Nash equilibrium solution for the two-player zerosu... This paper will present an approximate/adaptive dynamic programming(ADP) algorithm,that uses the idea of integral reinforcement learning(IRL),to determine online the Nash equilibrium solution for the two-player zerosum differential game with linear dynamics and infinite horizon quadratic cost.The algorithm is built around an iterative method that has been developed in the control engineering community for solving the continuous-time game algebraic Riccati equation(CT-GARE),which underlies the game problem.We here show how the ADP techniques will enhance the capabilities of the offline method allowing an online solution without the requirement of complete knowledge of the system dynamics.The feasibility of the ADP scheme is demonstrated in simulation for a power system control application.The adaptation goal is the best control policy that will face in an optimal manner the highest load disturbance. 展开更多
关键词 Approximate/Adaptive dynamic programming game algebraic Riccati equation zero-sum differential game Nash equilibrium
原文传递
基于Nash-Q的网络信息体系对抗仿真技术 被引量:7
18
作者 闫雪飞 李新明 +1 位作者 刘东 王寿彪 《系统工程与电子技术》 EI CSCD 北大核心 2018年第1期217-224,共8页
武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Q-learning算法具有类似的形式,其区别在于联合策略... 武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Q-learning算法具有类似的形式,其区别在于联合策略的计算,对于零和博弈体系作战模型,由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的求解而获得混合策略,因此更易于实现也更加高效。建立了战役层次零和作战动态博弈模型,在不需要其他Agent的完全信息时,给出了Nash均衡的求解方法。此外,采用高斯径向基神经网络对Q表进行离散,使得算法具有更好的离散效果以及泛化能力。最后,通过NISoS作战仿真实验验证了算法的有效性以及相比基于Q-learning算法以及Rule-based决策算法具有更高的收益,并且在离线决策中表现优异。 展开更多
关键词 网络信息体系 零和博弈 Q-LEARNING NASH均衡
下载PDF
Neural network solution for finite-horizon H-infinity constrained optimal control of nonlinear systems
19
作者 Frank L.LEWIS 《控制理论与应用(英文版)》 EI 2007年第1期1-11,共11页
In this paper, neural networks are used to approximately solve the finite-horizon constrained input H-infinity state feedback control problem. The method is based on solving a related Hamilton-Jacobi-Isaacs equation o... In this paper, neural networks are used to approximately solve the finite-horizon constrained input H-infinity state feedback control problem. The method is based on solving a related Hamilton-Jacobi-Isaacs equation of the corresponding finite-horizon zero-sum game. The game value function is approximated by a neural network with time- varying weights. It is shown that the neural network approximation converges uniformly to the game-value function and the resulting almost optimal constrained feedback controller provides closed-loop stability and bounded L2 gain. The result is an almost optimal H-infinity feedback controller with time-varying coefficients that is solved a priori off-line. The effectiveness of the method is shown on the Rotational/Translational Actuator benchmark nonlinear control problem. 展开更多
关键词 Constrained input system Hamilton-Jacobi-Isaacs H-infinity control Finite-horizon zero-sum games Neural network control
下载PDF
两方零和马尔科夫博弈下的策略梯度算法
20
作者 李永强 周键 +1 位作者 冯宇 冯远静 《模式识别与人工智能》 EI CSCD 北大核心 2023年第1期81-91,共11页
在两方零和马尔科夫博弈中,由于玩家策略会受到另一个玩家策略的影响,传统的策略梯度定理只适用于交替训练两个玩家的策略.为了实现同时训练两个玩家的策略,文中给出两方零和马尔科夫博弈下的策略梯度定理.然后,基于该策略梯度定理,提... 在两方零和马尔科夫博弈中,由于玩家策略会受到另一个玩家策略的影响,传统的策略梯度定理只适用于交替训练两个玩家的策略.为了实现同时训练两个玩家的策略,文中给出两方零和马尔科夫博弈下的策略梯度定理.然后,基于该策略梯度定理,提出基于额外梯度的REINFORCE算法,可使玩家的联合策略收敛到近似纳什均衡.文中从多个维度分析算法的优越性.首先,在同时移动博弈游戏上的对比实验表明,文中算法的收敛性和收敛速度较优.其次,分析文中算法得到的联合策略的特点,并验证这些联合策略达到近似纳什均衡.最后,在不同难度等级的同时移动博弈游戏上的对比实验表明,文中算法在更大的难度等级下仍能保持不错的收敛速度. 展开更多
关键词 马尔科夫博弈 零和博弈 策略梯度定理 近似纳什均衡
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部