期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于Nash-Q的网络信息体系对抗仿真技术 被引量:7
1
作者 闫雪飞 李新明 +1 位作者 刘东 王寿彪 《系统工程与电子技术》 EI CSCD 北大核心 2018年第1期217-224,共8页
武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Q-learning算法具有类似的形式,其区别在于联合策略... 武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Q-learning算法具有类似的形式,其区别在于联合策略的计算,对于零和博弈体系作战模型,由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的求解而获得混合策略,因此更易于实现也更加高效。建立了战役层次零和作战动态博弈模型,在不需要其他Agent的完全信息时,给出了Nash均衡的求解方法。此外,采用高斯径向基神经网络对Q表进行离散,使得算法具有更好的离散效果以及泛化能力。最后,通过NISoS作战仿真实验验证了算法的有效性以及相比基于Q-learning算法以及Rule-based决策算法具有更高的收益,并且在离线决策中表现优异。 展开更多
关键词 网络信息体系 零和博弈 Q-LEARNING NASH均衡
下载PDF
基于随机博弈的医疗系统入侵检测优化配置
2
作者 李毅 杨雅琪 +3 位作者 李芳 张坤 栾浩 马红兵 《中国医疗设备》 2023年第6期55-60,67,共7页
目的针对医疗网络运行特点与可能经受的网络攻击威胁,提出一种基于入侵检测的主动防御方法。方法依据医疗网络系统结构,结合医疗系统网络安全风险状态和网络攻击的方式,模拟入侵检测系统(Intrusion Detection System,IDS)和攻击者的博... 目的针对医疗网络运行特点与可能经受的网络攻击威胁,提出一种基于入侵检测的主动防御方法。方法依据医疗网络系统结构,结合医疗系统网络安全风险状态和网络攻击的方式,模拟入侵检测系统(Intrusion Detection System,IDS)和攻击者的博弈过程,结合Nash-Q Learning算法,提出了一套医疗网络主动防御系统的设计方法与实现算法,并通过仿真实验验证算法的可行性。结果仿真验证结果表明,与随机选择的入侵检测策略相比,本文提出的算法在多种决策学习率下得到的入侵检测累计收益提高了30%~40%,且可根据当前网络资源可用程度与所面临网络安全威胁级别,动态适配安全防御配置参数,在保障网络整体运行效能前提下,实现网络安全防御的最大化。结论基于IDS的主动防御方法,可以根据网络风险预测,有效提升医疗系统的整体安全性。 展开更多
关键词 放疗医疗网络 入侵检测网络 随机博弈 nash-q Learning 资源配置
下载PDF
基于路径-博弈混合策略的无人机空战机动决策
3
作者 张瀚文 甘旭升 +1 位作者 魏潇龙 童荣甲 《现代防御技术》 北大核心 2023年第6期87-96,共10页
针对无人机的自主空战机动决策问题,设计了基于路径-博弈混合策略的决策算法。首先根据无人机飞行控制过程中,水平机动和垂直机动可以解耦的原理,提出了相解耦的自主决策机制,使用路径规划实现水平机动决策,使用博弈理论实现垂直机动决... 针对无人机的自主空战机动决策问题,设计了基于路径-博弈混合策略的决策算法。首先根据无人机飞行控制过程中,水平机动和垂直机动可以解耦的原理,提出了相解耦的自主决策机制,使用路径规划实现水平机动决策,使用博弈理论实现垂直机动决策。为提升决策环境的灵活性,设计了能够自适应调整规划范围和分辨率的动态栅格环境。基于QL算法设计路径规划模型,并使用双Q表学习机制改进算法,有效提升了路径规划质量。基于纳什均衡理论构建垂直机动算法模型,根据不同的态势环境设计了代价计算函数,实现了无人机的垂直机动决策。最后,针对一对一空战对抗情景开展仿真验证,验证了算法的有效性,相对于传统基于三维规划空间下的机动决策,可有效缩短规划耗时,提升规划品质。 展开更多
关键词 无人机 机动决策 Q-LEARNING 纳什均衡 空战
下载PDF
基于多主体博弈和强化学习的多微网系统协同优化研究 被引量:10
4
作者 刘俊峰 王晓生 +1 位作者 卢俊菠 曾君 《电网技术》 EI CSCD 北大核心 2022年第7期2722-2732,共11页
面向分属于不同投资和运营主体的多个冷热电联供型微网构成的多微网系统,该文提出了一种基于多主体博弈的多微网系统协同优化方法,通过博弈论建立多微网系统的协同优化模型,实现各个微网的利益均衡。针对该模型Nash均衡求解困难的问题,... 面向分属于不同投资和运营主体的多个冷热电联供型微网构成的多微网系统,该文提出了一种基于多主体博弈的多微网系统协同优化方法,通过博弈论建立多微网系统的协同优化模型,实现各个微网的利益均衡。针对该模型Nash均衡求解困难的问题,提出了一种改进的Nash-Q学习算法。该算法采用深度神经网络来拟合Nash-Q学习算法中的价值函数,不仅有效解决了Nash-Q学习算法直接应用于复杂环境时遇到的维数灾难问题,并且保证了算法的后效性,能快速完成合理有效的在线优化。实验结果表明,相较于传统数学规划方法和贪婪算法,改进的Nash-Q学习算法能够学习到Nash均衡策略,实现各微网间电能互补,降低各微网的运行成本,验证了所提模型和算法的有效性。 展开更多
关键词 多微网系统 协同优化 博弈论 强化学习 nash-q
下载PDF
多智能体环境下的情绪决策模型 被引量:2
5
作者 林君焕 刘箴 陈月芬 《模式识别与人工智能》 EI CSCD 北大核心 2015年第4期369-376,共8页
建立一种基于情绪的Nash-Q决策模型,它由认知层和情绪层组成.认知层模型由Nash-Q算法实现,情绪层建立在情绪记忆和评价理论之上,由高兴、伤心、恐惧、厌烦组成情绪空间,建立相应刺激与情绪映射模型、情绪与行为动作映射模型、每种情绪... 建立一种基于情绪的Nash-Q决策模型,它由认知层和情绪层组成.认知层模型由Nash-Q算法实现,情绪层建立在情绪记忆和评价理论之上,由高兴、伤心、恐惧、厌烦组成情绪空间,建立相应刺激与情绪映射模型、情绪与行为动作映射模型、每种情绪下的动作信任度评价模型.将文中模型应用到两智能体网格决策实验中,结果表明情绪层的引入可加快收敛速度,同时能有效防止陷入局部最优,更好兼顾在线学习的"保守"和"探索"平衡. 展开更多
关键词 多智能体决策 nash-q学习 情绪决策 博弈理论
下载PDF
基于分布式纳什Q学习的多传感器协同目标跟踪 被引量:1
6
作者 蔡佳 黄长强 +1 位作者 高翔 胡杰 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第A01期60-65,共6页
针对传统目标跟踪算法过分依赖环境模型的问题,提出了一种基于分布式纳什Q学习的多传感器协同目标跟踪算法.分析了强化学习与分布式纳什Q学习算法的原理;描述了多传感器的协同跟踪态势,建立了离散系统的非线性模型,给出了传统的扩展卡... 针对传统目标跟踪算法过分依赖环境模型的问题,提出了一种基于分布式纳什Q学习的多传感器协同目标跟踪算法.分析了强化学习与分布式纳什Q学习算法的原理;描述了多传感器的协同跟踪态势,建立了离散系统的非线性模型,给出了传统的扩展卡尔曼滤波解决方法;定义了对分布式纳什Q学习性能影响至关重要的传感器行为和奖惩函数,奖惩函数通过计算预测误差方差阵的迹得到;采用基于贝叶斯推理的概率统计方法解决了Q函数的更新问题.纯方位量测信息的被动跟踪仿真结果表明,相比于传统滤波算法,该算法增强了传感器对环境变化的适应性,实现了对目标的有效跟踪,提高了跟踪精度. 展开更多
关键词 目标跟踪 非线性滤波 强化学习 纳什Q学习 分布式控制 多传感器协同 算法
下载PDF
一般和博弈中的合作多agent学习 被引量:7
7
作者 宋梅萍 顾国昌 +1 位作者 张国印 刘海波 《控制理论与应用》 EI CAS CSCD 北大核心 2007年第2期317-321,共5页
理性和收敛是多agent学习研究所追求的目标,在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agent更具理性,另一方面引入社会公约来启动和约束agent的推理,统一系统中所有agent的决策,从而保证学习的... 理性和收敛是多agent学习研究所追求的目标,在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agent更具理性,另一方面引入社会公约来启动和约束agent的推理,统一系统中所有agent的决策,从而保证学习的收敛性.利用2人栅格游戏对多种算法进行验证,成功率的比较说明了所提算法具有较好的学习性能. 展开更多
关键词 多AGENT学习 一般和随机博弈 NASH平衡 PARETO占优 Q-学习
下载PDF
多智能体Q学习在多AUV协调中的应用研究 被引量:4
8
作者 严浙平 李锋 黄宇峰 《应用科技》 CAS 2008年第1期57-60,共4页
分析了近年来提出的几种主要单、多智能体强化算法,提出一种多智能体Q学习算法,并将它用于多AUV协调中.此算法融合了Nash-Q、CE-Q及WoLF-PHC的算法思想或表达形式,程序简单、容易计算,并且具有很好的收敛性.多AUV协调控制仿真实验结果... 分析了近年来提出的几种主要单、多智能体强化算法,提出一种多智能体Q学习算法,并将它用于多AUV协调中.此算法融合了Nash-Q、CE-Q及WoLF-PHC的算法思想或表达形式,程序简单、容易计算,并且具有很好的收敛性.多AUV协调控制仿真实验结果表明这个算法是有效的. 展开更多
关键词 多智能体 Q学习 NASH均衡 多AUV
下载PDF
基于参数逼近的多智能体强化学习算法 被引量:2
9
作者 赵高长 刘豪 苏军 《计算机工程与设计》 北大核心 2020年第3期862-866,共5页
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数... 为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛。 展开更多
关键词 智能体系统 强化学习 马尔科夫博弈 Q学习 纳什均衡
下载PDF
基于Q学习算法的两交叉口信号灯博弈协调控制 被引量:4
10
作者 赵晓华 李振龙 +1 位作者 于泉 荣建 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第18期4253-4256,共4页
Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策... Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策略选择的依据实现两交叉口协调控制。应用Paramics交通仿真软件进行算法仿真,结果表明该方法的有效性。 展开更多
关键词 博弈论 Q学习算法 Nash公理方法 两交叉口信号灯协调控制
下载PDF
Strategy Selection for Moving Target Defense in Incomplete Information Game 被引量:1
11
作者 Huan Zhang Kangfeng Zheng +2 位作者 Xiujuan Wang Shoushan Luo Bin Wu 《Computers, Materials & Continua》 SCIE EI 2020年第2期763-786,共24页
As a core component of the network,web applications have become one of the preferred targets for attackers because the static configuration of web applications simplifies the exploitation of vulnerabilities by attacke... As a core component of the network,web applications have become one of the preferred targets for attackers because the static configuration of web applications simplifies the exploitation of vulnerabilities by attackers.Although the moving target defense(MTD)has been proposed to increase the attack difficulty for the attackers,there is no solo approach can cope with different attacks;in addition,it is impossible to implement all these approaches simultaneously due to the resource limitation.Thus,the selection of an optimal defense strategy based on MTD has become the focus of research.In general,the confrontation of two players in the security domain is viewed as a stochastic game,and the reward matrices are known to both players.However,in a real security confrontation,this scenario represents an incomplete information game.Each player can only observe the actions performed by the opponent,and the observed actions are not completely accurate.To accurately describe the attacker’s reward function to reach the Nash equilibrium,this work simulated and updated the strategy selection distribution of the attacker by observing and investigating the strategy selection history of the attacker.Next,the possible rewards of the attacker in each confrontation via the observation matrix were corrected.On this basis,the Nash-Q learning algorithm with reward quantification was proposed to select the optimal strategy.Moreover,the performances of the Minimax-Q learning algorithm and Naive-Q learning algorithm were compared and analyzed in the MTD environment.Finally,the experimental results showed that the strategy selection algorithm can enable defenders to select a more reasonable defensive strategy and achieve the maximum possible reward. 展开更多
关键词 Moving target defense nash-q learning algorithm optimal strategy selection incomplete information game web service
下载PDF
基于不完全信息随机博弈与Q-learning的防御决策方法 被引量:9
12
作者 张红旗 杨峻楠 张传富 《通信学报》 EI CSCD 北大核心 2018年第8期56-68,共13页
针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问... 针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问题,将Q-learning引入随机博弈中,使防御者在攻防对抗中通过学习得到的相关参数求解贝叶斯纳什均衡。在此基础上,设计了能够在线学习的防御决策算法。仿真实验验证了所提方法的有效性。 展开更多
关键词 网络攻防 随机博弈 Q-LEARNING 贝叶斯纳什均衡 防御决策
下载PDF
基于一般和随机对策论框架下的多智能体学习 被引量:1
13
作者 欧海涛 张卫东 许晓鸣 《自动化学报》 EI CSCD 北大核心 2002年第3期423-426,共4页
将 Q- learning从单智能体框架上扩展到非合作的多智能体框架上 ,建立了在一般和随机对策框架下的多智能体理论框架和学习算法 ,提出了以 Nash平衡点作为学习目标 .给出了对策结构的约束条件 ,并证明了在此约束条件下算法的收敛性 。
关键词 随机对策论 多智能体学习 学习算法 强化学习
下载PDF
群体环境下基于随机对策的多Agent局部学习算法
14
作者 尹怡欣 江道平 +1 位作者 班晓娟 孟祥嵩 《信息与控制》 CSCD 北大核心 2008年第6期703-708,共6页
基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法.算法在与局部环境交互中采用贪婪策略最大化自身利益.分别在零和、一般和的单个平衡点和多个平衡点情形下改进了Nash-Q学习算法;提出了... 基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法.算法在与局部环境交互中采用贪婪策略最大化自身利益.分别在零和、一般和的单个平衡点和多个平衡点情形下改进了Nash-Q学习算法;提出了行为修正方法,并证明了算法收敛、计算复杂度降低. 展开更多
关键词 多AGENT学习 随机对策 Nash—Q 局部学习
下载PDF
未知环境中基于图型博弈和multi-Q学习的动态信道选择算法 被引量:2
15
作者 李方伟 唐永川 朱江 《通信学报》 EI CSCD 北大核心 2013年第11期1-7,共7页
研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习... 研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习求解模型的纯策略纳什均衡解。仿真实验验证了multi-Q学习能获得较高的系统容量以及在图型博弈模型中用户的效用主要由节点的度决定,而与用户数量无直接关系。 展开更多
关键词 动态信道选择 图型博弈 multi-Q学习 纯策略纳什均衡
下载PDF
基于NashCC-Q学习的两交叉口信号灯协调控制 被引量:2
16
作者 赵晓华 李振龙 +1 位作者 于泉 李云驰 《系统仿真学报》 EI CAS CSCD 北大核心 2008年第17期4660-4663,共4页
提出一种NashCC-Q学习算法用于解决两交叉口信号灯协调控制问题。根据博弈论概念,相邻两交叉口之间的协调控制问题属于二人非零和合作博弈类型。在Nash-Q学习算法的基础上,将Q值函数的更新建立在Nash合作博弈中提出的Nash"公理方法... 提出一种NashCC-Q学习算法用于解决两交叉口信号灯协调控制问题。根据博弈论概念,相邻两交叉口之间的协调控制问题属于二人非零和合作博弈类型。在Nash-Q学习算法的基础上,将Q值函数的更新建立在Nash合作博弈中提出的Nash"公理方法"求博弈谈判解的基础上,进而解决合作博弈的问题,实现两交叉口信号灯协调控制。采用Paramics仿真软件进行仿真,结果表明该方法的有效性。 展开更多
关键词 Q学习算法 博弈论 Nash公理谈判解 两交叉口信号灯协调控制
下载PDF
基于5G无人机通信的多智能体异构网络选择方法 被引量:5
17
作者 丁雨 李晨凯 +4 位作者 韩会梅 卢为党 任元红 高原 曹江 《电信科学》 2022年第8期28-36,共9页
5G无人机通信网络和各种不同无线接入技术的结合使无线异构网络呈现多样化的发展趋势。然而,用户繁多且不同的业务请求对网络要求也不同,造成网络接入选择问题。提出了一种基于5G无人机通信的多智能体异构网络选择方法,将用户分为多个... 5G无人机通信网络和各种不同无线接入技术的结合使无线异构网络呈现多样化的发展趋势。然而,用户繁多且不同的业务请求对网络要求也不同,造成网络接入选择问题。提出了一种基于5G无人机通信的多智能体异构网络选择方法,将用户分为多个智能体,从用户端和网络端两个方面出发,将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数,通过基于Nash Q-Learning的算法进行学习,得到异构网络环境下的网络选择决策模型。仿真结果表明,所提异构网络选择方法针对不同业务类型用户的需求均能选择合适的网络,同时均衡网络的负载,充分利用异构无线网络的资源。 展开更多
关键词 无人机通信 异构网络选择 Nash Q-Learning 负载均衡
下载PDF
基于多维攻防博弈机制的LTE-5G网络防御算法研究 被引量:4
18
作者 王文飞 张志峰 《井冈山大学学报(自然科学版)》 2018年第6期49-55,共7页
针对当前LTE-5G网络防御算法需要预设先决条件,且在多维攻击环境下难以实现防御行为自收敛等难题,提出了一种基于多维攻防博弈机制的LTE-5G网络防御算法。首先,对攻击行为进行大数据建模,综合考虑攻击行为数学分布特性,即DDos攻击特性,... 针对当前LTE-5G网络防御算法需要预设先决条件,且在多维攻击环境下难以实现防御行为自收敛等难题,提出了一种基于多维攻防博弈机制的LTE-5G网络防御算法。首先,对攻击行为进行大数据建模,综合考虑攻击行为数学分布特性,即DDos攻击特性,并精确匹配DDos攻击带宽,实现对攻击危害行为的确定性分析,提高网络主动防御性能,达到对攻击行为预分析的目的;随后,考虑到传统算法的网络收敛概率评估较差的问题,采取Q分析方式进行随机博弈,构建了Q博弈-单向数据攻击模型,成功获取单向数据攻击集合,并进行了攻击行为持续期间的纳什均衡,改善算法的网络防御效果。仿真实验证明:与当前LTE-5G网络中广泛使用的次高频载波指纹网络过滤防御算法(Secondary High Frequency Carrier Fingerprint Network Filtering Defense Algorithm,SHFCF-FD算法)、带宽峰值匹配过滤防御算法(Bandwidth Peak Matching Filtering Defense Algorithm,BPMFD算法)相比,所提算法具有更大的抗攻击带宽强与网络传输带宽,以及更低的裁决错误率低与信道误码率,具有很强的实际部署价值。 展开更多
关键词 LTE-5G网络 多维攻防 博弈机制 Q分析 DDos攻击带宽 纳什均衡
下载PDF
逼近纳什均衡的动态蜂窝选择方案
19
作者 王文浩 王禄生 +1 位作者 开彩红 刘超 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2020年第5期614-619,共6页
在异构蜂窝选择博弈中,纳什均衡对应终端的蜂窝选择结果可以让系统获得相对较优的性能,然而在动态的网络场景中,终端会不断地移动,导致此前选择的结果偏离原纳什均衡,采用传统搜索纳什均衡的方法无法非常快速地重新逼近新的纳什均衡。... 在异构蜂窝选择博弈中,纳什均衡对应终端的蜂窝选择结果可以让系统获得相对较优的性能,然而在动态的网络场景中,终端会不断地移动,导致此前选择的结果偏离原纳什均衡,采用传统搜索纳什均衡的方法无法非常快速地重新逼近新的纳什均衡。文章提出一种逼近纳什均衡的动态蜂窝选择方案,借助设计的经验公式,快速调整终端的蜂窝选择策略,使整个系统始终保持逼近纳什均衡。 展开更多
关键词 异构蜂窝网络 蜂窝选择 纳什均衡 蜂窝间干扰 Q学习
下载PDF
A MULTI-AGENT LOCAL-LEARNING ALGORITHM UNDER GROUP ENVIROMENT
20
作者 Jiang Daoping Yin Yixin Ban Xiaojuan Meng Xiangsong 《Journal of Electronics(China)》 2009年第2期229-236,共8页
In this paper,a local-learning algorithm for multi-agent is presented based on the fact that individual agent performs local perception and local interaction under group environment.As for in-dividual-learning,agent a... In this paper,a local-learning algorithm for multi-agent is presented based on the fact that individual agent performs local perception and local interaction under group environment.As for in-dividual-learning,agent adopts greedy strategy to maximize its reward when interacting with envi-ronment.In group-learning,local interaction takes place between each two agents.A local-learning algorithm to choose and modify agents' actions is proposed to improve the traditional Q-learning algorithm,respectively in the situations of zero-sum games and general-sum games with unique equi-librium or multi-equilibrium.And this local-learning algorithm is proved to be convergent and the computation complexity is lower than the Nash-Q.Additionally,through grid-game test,it is indicated that by using this local-learning algorithm,the local behaviors of agents can spread to globe. 展开更多
关键词 Q学习算法 多AGENT 环境 计算复杂度 代理人 贪婪策略 相互作用
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部