检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到8篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

两方零和马尔科夫博弈策略梯度算法及收敛性分析: 1; 作者王卓李永强 +1 位作者冯宇冯远静《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2024年第3期480-491,共12页; 为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定... 展开更多; 关键词两方零和马尔科夫博弈强化学习策略优化额外梯度纳什均衡神经网络; 下载PDF 职称材料

两方零和马尔科夫博弈下的策略梯度算法: 2; 作者李永强周键 +1 位作者冯宇冯远静《模式识别与人工智能》 EI CSCD 北大核心 2023年第1期81-91,共11页; 在两方零和马尔科夫博弈中,由于玩家策略会受到另一个玩家策略的影响,传统的策略梯度定理只适用于交替训练两个玩家的策略.为了实现同时训练两个玩家的策略,文中给出两方零和马尔科夫博弈下的策略梯度定理.然后,基于该策略梯度定理,提... 展开更多; 关键词马尔科夫博弈零和博弈策略梯度定理近似纳什均衡; 下载PDF 职称材料

应用部分马尔科夫博弈的网络安全主动响应决策模型被引量：5: 3; 作者胡鹤胡昌振姚淑萍《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第4期18-24,共7页; 针对传统被动响应模型滞后于攻击且频繁误警和虚警导致不当响应的问题,提出一种基于部分马尔科夫博弈(POMG)的主动响应决策模型.该模型针对入侵过程生成入侵状态转换图,并根据攻击过程中得到的观察事件匹配入侵状态转换图,在考虑状态不... 展开更多; 关键词主动响应入侵状态转换图部分马尔科夫博弈信念状态; 下载PDF 职称材料

基于马尔科夫博弈的云代理与微云收益优化: 4; 作者张锋辉符茂胜何富贵《计算机工程与设计》北大核心 2018年第12期3628-3632,共5页; 在移动云计算中提高微云(Cloudlet)虚拟机利用率是增加云代理(Cloud Broker)和微云收益的关键,引入马尔科夫博弈可分别优化双方的收益。将云代理和微云和的服务量化为排队过程,分析该过程建立马尔科夫博弈模型;分析每个时间片中系统的... 展开更多; 关键词马尔科夫博弈移动云计算云代理微云纳什均衡收益优化; 下载PDF 职称材料

基于多智能体深度强化学习的无人机动态预部署策略被引量：3: 5; 作者唐伦李质萱 +2 位作者蒲昊汪智平陈前斌《电子与信息学报》 EI CSCD 北大核心 2023年第6期2007-2015,共9页; 针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以... 展开更多; 关键词无人机通信动态部署部分可观测马尔科夫博弈多智能体深度强化学习; 下载PDF 职称材料

基于参数逼近的多智能体强化学习算法被引量：2: 6; 作者赵高长刘豪苏军《计算机工程与设计》北大核心 2020年第3期862-866,共5页; 为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数... 展开更多; 关键词智能体系统强化学习马尔科夫博弈 Q学习纳什均衡; 下载PDF 职称材料

基于攻击图的主动响应策略选择被引量：2: 7; 作者胡鹤胡昌振姚淑萍《北京工业大学学报》 EI CAS CSCD 北大核心 2012年第11期1659-1664,共6页; 为帮助管理员预先识别网络系统脆弱性及面临的潜在安全威胁,提出一种基于攻击图的主动响应策略选择方法.该方法利用攻击图模型分析网络攻击行为,预测攻击路径并进行定量分析.根据攻击过程中得到的观察匹配攻击图,更新信念状态,最终利用... 展开更多; 关键词网络安全部分马尔科夫博弈攻击图; 下载PDF 职称材料

基于Q-learning的分布式基站缓存替换策略: 8; 作者房晓阳季新生 +2 位作者刘彩霞陈龙杜福德《信息工程大学学报》 2017年第5期526-530,共5页; 针对传统替换策略的不足,提出一种基于Q-learning的缓存替换策略。该方法使用马尔科夫博弈模型描述多基站协作替换问题,以降低网络服务延迟为目标,利用分布式Q-learning算法获得Nash均衡点作为最优策略。实验表明,与其他缓存替换策略相... 展开更多; 关键词缓存替换马尔科夫博弈模型 Q-leamng 移动通信网; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部