期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于NashCC-Q学习的两交叉口信号灯协调控制 被引量:2
1
作者 赵晓华 李振龙 +1 位作者 于泉 李云驰 《系统仿真学报》 EI CAS CSCD 北大核心 2008年第17期4660-4663,共4页
提出一种NashCC-Q学习算法用于解决两交叉口信号灯协调控制问题。根据博弈论概念,相邻两交叉口之间的协调控制问题属于二人非零和合作博弈类型。在Nash-Q学习算法的基础上,将Q值函数的更新建立在Nash合作博弈中提出的Nash"公理方法... 提出一种NashCC-Q学习算法用于解决两交叉口信号灯协调控制问题。根据博弈论概念,相邻两交叉口之间的协调控制问题属于二人非零和合作博弈类型。在Nash-Q学习算法的基础上,将Q值函数的更新建立在Nash合作博弈中提出的Nash"公理方法"求博弈谈判解的基础上,进而解决合作博弈的问题,实现两交叉口信号灯协调控制。采用Paramics仿真软件进行仿真,结果表明该方法的有效性。 展开更多
关键词 q学习算法 博弈论 nash公理谈判解 两交叉口信号灯协调控制
下载PDF
基于Nash-Q的网络信息体系对抗仿真技术 被引量:7
2
作者 闫雪飞 李新明 +1 位作者 刘东 王寿彪 《系统工程与电子技术》 EI CSCD 北大核心 2018年第1期217-224,共8页
武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Q-learning算法具有类似的形式,其区别在于联合策略... 武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Q-learning算法具有类似的形式,其区别在于联合策略的计算,对于零和博弈体系作战模型,由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的求解而获得混合策略,因此更易于实现也更加高效。建立了战役层次零和作战动态博弈模型,在不需要其他Agent的完全信息时,给出了Nash均衡的求解方法。此外,采用高斯径向基神经网络对Q表进行离散,使得算法具有更好的离散效果以及泛化能力。最后,通过NISoS作战仿真实验验证了算法的有效性以及相比基于Q-learning算法以及Rule-based决策算法具有更高的收益,并且在离线决策中表现优异。 展开更多
关键词 网络信息体系 零和博弈 q-LEARNING nash均衡
下载PDF
基于分布式纳什Q学习的多传感器协同目标跟踪 被引量:1
3
作者 蔡佳 黄长强 +1 位作者 高翔 胡杰 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第A01期60-65,共6页
针对传统目标跟踪算法过分依赖环境模型的问题,提出了一种基于分布式纳什Q学习的多传感器协同目标跟踪算法.分析了强化学习与分布式纳什Q学习算法的原理;描述了多传感器的协同跟踪态势,建立了离散系统的非线性模型,给出了传统的扩展卡... 针对传统目标跟踪算法过分依赖环境模型的问题,提出了一种基于分布式纳什Q学习的多传感器协同目标跟踪算法.分析了强化学习与分布式纳什Q学习算法的原理;描述了多传感器的协同跟踪态势,建立了离散系统的非线性模型,给出了传统的扩展卡尔曼滤波解决方法;定义了对分布式纳什Q学习性能影响至关重要的传感器行为和奖惩函数,奖惩函数通过计算预测误差方差阵的迹得到;采用基于贝叶斯推理的概率统计方法解决了Q函数的更新问题.纯方位量测信息的被动跟踪仿真结果表明,相比于传统滤波算法,该算法增强了传感器对环境变化的适应性,实现了对目标的有效跟踪,提高了跟踪精度. 展开更多
关键词 目标跟踪 非线性滤波 强化学习 纳什q学习 分布式控制 多传感器协同 算法
下载PDF
多智能体Q学习在多AUV协调中的应用研究 被引量:4
4
作者 严浙平 李锋 黄宇峰 《应用科技》 CAS 2008年第1期57-60,共4页
分析了近年来提出的几种主要单、多智能体强化算法,提出一种多智能体Q学习算法,并将它用于多AUV协调中.此算法融合了Nash-Q、CE-Q及WoLF-PHC的算法思想或表达形式,程序简单、容易计算,并且具有很好的收敛性.多AUV协调控制仿真实验结果... 分析了近年来提出的几种主要单、多智能体强化算法,提出一种多智能体Q学习算法,并将它用于多AUV协调中.此算法融合了Nash-Q、CE-Q及WoLF-PHC的算法思想或表达形式,程序简单、容易计算,并且具有很好的收敛性.多AUV协调控制仿真实验结果表明这个算法是有效的. 展开更多
关键词 多智能体 q学习 nash均衡 多AUV
下载PDF
基于Q学习算法的两交叉口信号灯博弈协调控制 被引量:4
5
作者 赵晓华 李振龙 +1 位作者 于泉 荣建 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第18期4253-4256,共4页
Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策... Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策略选择的依据实现两交叉口协调控制。应用Paramics交通仿真软件进行算法仿真,结果表明该方法的有效性。 展开更多
关键词 博弈论 q学习算法 nash公理方法 两交叉口信号灯协调控制
下载PDF
基于不完全信息随机博弈与Q-learning的防御决策方法 被引量:9
6
作者 张红旗 杨峻楠 张传富 《通信学报》 EI CSCD 北大核心 2018年第8期56-68,共13页
针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问... 针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问题,将Q-learning引入随机博弈中,使防御者在攻防对抗中通过学习得到的相关参数求解贝叶斯纳什均衡。在此基础上,设计了能够在线学习的防御决策算法。仿真实验验证了所提方法的有效性。 展开更多
关键词 网络攻防 随机博弈 q-LEARNING 贝叶斯纳什均衡 防御决策
下载PDF
未知环境中基于图型博弈和multi-Q学习的动态信道选择算法 被引量:2
7
作者 李方伟 唐永川 朱江 《通信学报》 EI CSCD 北大核心 2013年第11期1-7,共7页
研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习... 研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习求解模型的纯策略纳什均衡解。仿真实验验证了multi-Q学习能获得较高的系统容量以及在图型博弈模型中用户的效用主要由节点的度决定,而与用户数量无直接关系。 展开更多
关键词 动态信道选择 图型博弈 multi-q学习 纯策略纳什均衡
下载PDF
基于Q学习的DDoS攻防博弈模型研究 被引量:1
8
作者 史云放 武东英 +1 位作者 刘胜利 高翔 《计算机科学》 CSCD 北大核心 2014年第11期203-207,226,共6页
新形势下的DDoS攻防博弈过程和以往不同,因此利用现有的方法无法有效地评估量化攻防双方的收益以及动态调整博弈策略以实现收益最大化。针对这一问题,设计了一种基于Q学习的DDoS攻防博弈模型,并在此基础上提出了模型算法。首先,通过网... 新形势下的DDoS攻防博弈过程和以往不同,因此利用现有的方法无法有效地评估量化攻防双方的收益以及动态调整博弈策略以实现收益最大化。针对这一问题,设计了一种基于Q学习的DDoS攻防博弈模型,并在此基础上提出了模型算法。首先,通过网络熵评估量化方法计算攻防双方收益;其次,利用矩阵博弈研究单个DDoS攻击阶段的攻防博弈过程;最后,将Q学习引入博弈过程,提出了模型算法,用以根据学习效果动态调整攻防策略从而实现收益最大化。实验结果表明,采用模型算法的防御方能够获得更高的收益,从而证明了算法的可用性和有效性。 展开更多
关键词 DDoS攻防 矩阵博弈 q学习 网络熵 纳什均衡
下载PDF
基于改进多智能体Nash Q Learning的交通信号协调控制
9
作者 苏港 叶宝林 +2 位作者 姚青 陈滨 张一嘉 《软件工程》 2024年第10期43-49,共7页
为了优化区域交通信号配时方案,提升区域通行效率,文章提出一种基于改进多智能体Nash Q Learning的区域交通信号协调控制方法。首先,采用离散化编码方法,通过划分单元格将连续状态信息转化为离散形式。其次,在算法中融入长短时记忆网络(... 为了优化区域交通信号配时方案,提升区域通行效率,文章提出一种基于改进多智能体Nash Q Learning的区域交通信号协调控制方法。首先,采用离散化编码方法,通过划分单元格将连续状态信息转化为离散形式。其次,在算法中融入长短时记忆网络(Long Short Term Memory,LSTM)模块,用于从状态数据中挖掘更多的隐藏信息,丰富Q值表中的状态数据。最后,基于微观交通仿真软件SUMO(Simulation of Urban Mobility)的仿真测试结果表明,相较于原始Nash Q Learning交通信号控制方法,所提方法在低、中、高流量下车辆的平均等待时间分别减少了11.5%、16.2%和10.0%,平均排队长度分别减少了9.1%、8.2%和7.6%,平均停车次数分别减少了18.3%、16.1%和10.0%。结果证明了该算法具有更好的控制效果。 展开更多
关键词 区域交通信号协调控制 马尔科夫决策 多智能体nash q Learning LSTM SUMO
下载PDF
THE COMPARISON OF GREEN FUNCTION FOR QUASI-LINEAR ELLIPTIC EQUATION 被引量:2
10
作者 郑神州 康秀英 《Acta Mathematica Scientia》 SCIE CSCD 2005年第3期470-480,共11页
A generalization of the usual Green function to a kind of nonlinear elliptic equation of divergence form is discussed. The regularity and comparison principle of Green function in the sense of distribution are shown.
关键词 Green function q-capacity BMO function Moser-nash's iteration weak-L^p space
下载PDF
基于非策略Q学习方法的两个个体优化控制 被引量:2
11
作者 肖振飞 李金娜 《控制工程》 CSCD 北大核心 2022年第10期1874-1880,共7页
针对线性离散时间系统的非零和博弈问题,提出一种非策略Q学习算法。首先,提出非零和博弈优化问题,并且严格证明根据每个个体性能指标定义的值函数为线性二次型。然后,基于动态规划和Q学习方法,给出非策略Q学习算法,得到非零和博弈的近... 针对线性离散时间系统的非零和博弈问题,提出一种非策略Q学习算法。首先,提出非零和博弈优化问题,并且严格证明根据每个个体性能指标定义的值函数为线性二次型。然后,基于动态规划和Q学习方法,给出非策略Q学习算法,得到非零和博弈的近似最优解,实现系统的全局纳什均衡。此算法不要求系统模型参数已知,完全利用可测数据学习纳什均衡解。最后,算例仿真验证了方法的有效性。 展开更多
关键词 自适应动态规划 非策略q学习 非零和博弈 纳什均衡
下载PDF
基于随机博弈的医疗系统入侵检测优化配置
12
作者 李毅 杨雅琪 +3 位作者 李芳 张坤 栾浩 马红兵 《中国医疗设备》 2023年第6期55-60,67,共7页
目的针对医疗网络运行特点与可能经受的网络攻击威胁,提出一种基于入侵检测的主动防御方法。方法依据医疗网络系统结构,结合医疗系统网络安全风险状态和网络攻击的方式,模拟入侵检测系统(Intrusion Detection System,IDS)和攻击者的博... 目的针对医疗网络运行特点与可能经受的网络攻击威胁,提出一种基于入侵检测的主动防御方法。方法依据医疗网络系统结构,结合医疗系统网络安全风险状态和网络攻击的方式,模拟入侵检测系统(Intrusion Detection System,IDS)和攻击者的博弈过程,结合Nash-Q Learning算法,提出了一套医疗网络主动防御系统的设计方法与实现算法,并通过仿真实验验证算法的可行性。结果仿真验证结果表明,与随机选择的入侵检测策略相比,本文提出的算法在多种决策学习率下得到的入侵检测累计收益提高了30%~40%,且可根据当前网络资源可用程度与所面临网络安全威胁级别,动态适配安全防御配置参数,在保障网络整体运行效能前提下,实现网络安全防御的最大化。结论基于IDS的主动防御方法,可以根据网络风险预测,有效提升医疗系统的整体安全性。 展开更多
关键词 放疗医疗网络 入侵检测网络 随机博弈 nash-q Learning 资源配置
下载PDF
基于路径-博弈混合策略的无人机空战机动决策
13
作者 张瀚文 甘旭升 +1 位作者 魏潇龙 童荣甲 《现代防御技术》 北大核心 2023年第6期87-96,共10页
针对无人机的自主空战机动决策问题,设计了基于路径-博弈混合策略的决策算法。首先根据无人机飞行控制过程中,水平机动和垂直机动可以解耦的原理,提出了相解耦的自主决策机制,使用路径规划实现水平机动决策,使用博弈理论实现垂直机动决... 针对无人机的自主空战机动决策问题,设计了基于路径-博弈混合策略的决策算法。首先根据无人机飞行控制过程中,水平机动和垂直机动可以解耦的原理,提出了相解耦的自主决策机制,使用路径规划实现水平机动决策,使用博弈理论实现垂直机动决策。为提升决策环境的灵活性,设计了能够自适应调整规划范围和分辨率的动态栅格环境。基于QL算法设计路径规划模型,并使用双Q表学习机制改进算法,有效提升了路径规划质量。基于纳什均衡理论构建垂直机动算法模型,根据不同的态势环境设计了代价计算函数,实现了无人机的垂直机动决策。最后,针对一对一空战对抗情景开展仿真验证,验证了算法的有效性,相对于传统基于三维规划空间下的机动决策,可有效缩短规划耗时,提升规划品质。 展开更多
关键词 无人机 机动决策 q-LEARNING 纳什均衡 空战
下载PDF
群体环境下基于随机对策的多Agent局部学习算法
14
作者 尹怡欣 江道平 +1 位作者 班晓娟 孟祥嵩 《信息与控制》 CSCD 北大核心 2008年第6期703-708,共6页
基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法.算法在与局部环境交互中采用贪婪策略最大化自身利益.分别在零和、一般和的单个平衡点和多个平衡点情形下改进了Nash-Q学习算法;提出了... 基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法.算法在与局部环境交互中采用贪婪策略最大化自身利益.分别在零和、一般和的单个平衡点和多个平衡点情形下改进了Nash-Q学习算法;提出了行为修正方法,并证明了算法收敛、计算复杂度降低. 展开更多
关键词 多AGENT学习 随机对策 nash—q 局部学习
下载PDF
基于多主体博弈和强化学习的多微网系统协同优化研究 被引量:10
15
作者 刘俊峰 王晓生 +1 位作者 卢俊菠 曾君 《电网技术》 EI CSCD 北大核心 2022年第7期2722-2732,共11页
面向分属于不同投资和运营主体的多个冷热电联供型微网构成的多微网系统,该文提出了一种基于多主体博弈的多微网系统协同优化方法,通过博弈论建立多微网系统的协同优化模型,实现各个微网的利益均衡。针对该模型Nash均衡求解困难的问题,... 面向分属于不同投资和运营主体的多个冷热电联供型微网构成的多微网系统,该文提出了一种基于多主体博弈的多微网系统协同优化方法,通过博弈论建立多微网系统的协同优化模型,实现各个微网的利益均衡。针对该模型Nash均衡求解困难的问题,提出了一种改进的Nash-Q学习算法。该算法采用深度神经网络来拟合Nash-Q学习算法中的价值函数,不仅有效解决了Nash-Q学习算法直接应用于复杂环境时遇到的维数灾难问题,并且保证了算法的后效性,能快速完成合理有效的在线优化。实验结果表明,相较于传统数学规划方法和贪婪算法,改进的Nash-Q学习算法能够学习到Nash均衡策略,实现各微网间电能互补,降低各微网的运行成本,验证了所提模型和算法的有效性。 展开更多
关键词 多微网系统 协同优化 博弈论 强化学习 nash-q
下载PDF
多智能体环境下的情绪决策模型 被引量:2
16
作者 林君焕 刘箴 陈月芬 《模式识别与人工智能》 EI CSCD 北大核心 2015年第4期369-376,共8页
建立一种基于情绪的Nash-Q决策模型,它由认知层和情绪层组成.认知层模型由Nash-Q算法实现,情绪层建立在情绪记忆和评价理论之上,由高兴、伤心、恐惧、厌烦组成情绪空间,建立相应刺激与情绪映射模型、情绪与行为动作映射模型、每种情绪... 建立一种基于情绪的Nash-Q决策模型,它由认知层和情绪层组成.认知层模型由Nash-Q算法实现,情绪层建立在情绪记忆和评价理论之上,由高兴、伤心、恐惧、厌烦组成情绪空间,建立相应刺激与情绪映射模型、情绪与行为动作映射模型、每种情绪下的动作信任度评价模型.将文中模型应用到两智能体网格决策实验中,结果表明情绪层的引入可加快收敛速度,同时能有效防止陷入局部最优,更好兼顾在线学习的"保守"和"探索"平衡. 展开更多
关键词 多智能体决策 nash-q学习 情绪决策 博弈理论
下载PDF
一般和博弈中的合作多agent学习 被引量:7
17
作者 宋梅萍 顾国昌 +1 位作者 张国印 刘海波 《控制理论与应用》 EI CAS CSCD 北大核心 2007年第2期317-321,共5页
理性和收敛是多agent学习研究所追求的目标,在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agent更具理性,另一方面引入社会公约来启动和约束agent的推理,统一系统中所有agent的决策,从而保证学习的... 理性和收敛是多agent学习研究所追求的目标,在理性合作的多agent系统中提出利用Pareto占优解代替非合作的Nash平衡解进行学习,使agent更具理性,另一方面引入社会公约来启动和约束agent的推理,统一系统中所有agent的决策,从而保证学习的收敛性.利用2人栅格游戏对多种算法进行验证,成功率的比较说明了所提算法具有较好的学习性能. 展开更多
关键词 多AGENT学习 一般和随机博弈 nash平衡 PARETO占优 q-学习
下载PDF
基于参数逼近的多智能体强化学习算法 被引量:2
18
作者 赵高长 刘豪 苏军 《计算机工程与设计》 北大核心 2020年第3期862-866,共5页
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数... 为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛。 展开更多
关键词 智能体系统 强化学习 马尔科夫博弈 q学习 纳什均衡
下载PDF
基于一般和随机对策论框架下的多智能体学习 被引量:1
19
作者 欧海涛 张卫东 许晓鸣 《自动化学报》 EI CSCD 北大核心 2002年第3期423-426,共4页
将 Q- learning从单智能体框架上扩展到非合作的多智能体框架上 ,建立了在一般和随机对策框架下的多智能体理论框架和学习算法 ,提出了以 Nash平衡点作为学习目标 .给出了对策结构的约束条件 ,并证明了在此约束条件下算法的收敛性 。
关键词 随机对策论 多智能体学习 学习算法 强化学习
下载PDF
基于5G无人机通信的多智能体异构网络选择方法 被引量:5
20
作者 丁雨 李晨凯 +4 位作者 韩会梅 卢为党 任元红 高原 曹江 《电信科学》 2022年第8期28-36,共9页
5G无人机通信网络和各种不同无线接入技术的结合使无线异构网络呈现多样化的发展趋势。然而,用户繁多且不同的业务请求对网络要求也不同,造成网络接入选择问题。提出了一种基于5G无人机通信的多智能体异构网络选择方法,将用户分为多个... 5G无人机通信网络和各种不同无线接入技术的结合使无线异构网络呈现多样化的发展趋势。然而,用户繁多且不同的业务请求对网络要求也不同,造成网络接入选择问题。提出了一种基于5G无人机通信的多智能体异构网络选择方法,将用户分为多个智能体,从用户端和网络端两个方面出发,将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数,通过基于Nash Q-Learning的算法进行学习,得到异构网络环境下的网络选择决策模型。仿真结果表明,所提异构网络选择方法针对不同业务类型用户的需求均能选择合适的网络,同时均衡网络的负载,充分利用异构无线网络的资源。 展开更多
关键词 无人机通信 异构网络选择 nash q-Learning 负载均衡
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部