期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
两方零和马尔科夫博弈策略梯度算法及收敛性分析
1
作者 王卓 李永强 +1 位作者 冯宇 冯远静 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第3期480-491,共12页
为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定... 为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定理,并通过近似随机策略梯度的推导,为算法实施提供可行性基础.通过比较分析不同的最大最小问题梯度更新方法,发现额外梯度相较于其他方法具有更好的收敛性能.基于这一发现,提出基于额外梯度的近似纳什均衡策略优化算法,并给出算法的收敛性证明.在Oshi-Zumo游戏上,使用表格式softmax参数化策略以及神经网络作为参数化策略,验证不同游戏规模场景下算法的有效性.通过对比实验,验证算法相对于其他方法的收敛性和优越性. 展开更多
关键词 两方零和马尔科夫博弈 强化学习 策略优化 额外梯度 纳什均衡 神经网络
下载PDF
两方零和马尔科夫博弈下的策略梯度算法
2
作者 李永强 周键 +1 位作者 冯宇 冯远静 《模式识别与人工智能》 EI CSCD 北大核心 2023年第1期81-91,共11页
在两方零和马尔科夫博弈中,由于玩家策略会受到另一个玩家策略的影响,传统的策略梯度定理只适用于交替训练两个玩家的策略.为了实现同时训练两个玩家的策略,文中给出两方零和马尔科夫博弈下的策略梯度定理.然后,基于该策略梯度定理,提... 在两方零和马尔科夫博弈中,由于玩家策略会受到另一个玩家策略的影响,传统的策略梯度定理只适用于交替训练两个玩家的策略.为了实现同时训练两个玩家的策略,文中给出两方零和马尔科夫博弈下的策略梯度定理.然后,基于该策略梯度定理,提出基于额外梯度的REINFORCE算法,可使玩家的联合策略收敛到近似纳什均衡.文中从多个维度分析算法的优越性.首先,在同时移动博弈游戏上的对比实验表明,文中算法的收敛性和收敛速度较优.其次,分析文中算法得到的联合策略的特点,并验证这些联合策略达到近似纳什均衡.最后,在不同难度等级的同时移动博弈游戏上的对比实验表明,文中算法在更大的难度等级下仍能保持不错的收敛速度. 展开更多
关键词 马尔科夫博弈 零和博弈 策略梯度定理 近似纳什均衡
下载PDF
应用部分马尔科夫博弈的网络安全主动响应决策模型 被引量:5
3
作者 胡鹤 胡昌振 姚淑萍 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第4期18-24,共7页
针对传统被动响应模型滞后于攻击且频繁误警和虚警导致不当响应的问题,提出一种基于部分马尔科夫博弈(POMG)的主动响应决策模型.该模型针对入侵过程生成入侵状态转换图,并根据攻击过程中得到的观察事件匹配入侵状态转换图,在考虑状态不... 针对传统被动响应模型滞后于攻击且频繁误警和虚警导致不当响应的问题,提出一种基于部分马尔科夫博弈(POMG)的主动响应决策模型.该模型针对入侵过程生成入侵状态转换图,并根据攻击过程中得到的观察事件匹配入侵状态转换图,在考虑状态不确定的情况下确定系统信念状态.将概率值超过信念状态阈值的状态作为初始节点生成入侵状态转换子图,根据子图的入侵过程确定攻防策略集,最终利用POMG算法选择最优主动响应策略.实验结果表明,基于POMG的主动响应模型较映射型模型响应速度快67%,平均响应效率高24.5%. 展开更多
关键词 主动响应 入侵状态转换图 部分马尔科夫博弈 信念状态
下载PDF
基于马尔科夫博弈的云代理与微云收益优化
4
作者 张锋辉 符茂胜 何富贵 《计算机工程与设计》 北大核心 2018年第12期3628-3632,共5页
在移动云计算中提高微云(Cloudlet)虚拟机利用率是增加云代理(Cloud Broker)和微云收益的关键,引入马尔科夫博弈可分别优化双方的收益。将云代理和微云和的服务量化为排队过程,分析该过程建立马尔科夫博弈模型;分析每个时间片中系统的... 在移动云计算中提高微云(Cloudlet)虚拟机利用率是增加云代理(Cloud Broker)和微云收益的关键,引入马尔科夫博弈可分别优化双方的收益。将云代理和微云和的服务量化为排队过程,分析该过程建立马尔科夫博弈模型;分析每个时间片中系统的收益并确定该博弈为变和马尔科夫博弈,提出反向迭代算法得到其纳什均衡策略。对比马尔科夫博弈的方法与云代理租用确定数量虚拟机的方法,其结果表明,采用马尔科夫博弈可明显提高系统收益。 展开更多
关键词 马尔科夫博弈 移动云计算 云代理 微云 纳什均衡 收益优化
下载PDF
基于多智能体深度强化学习的无人机动态预部署策略 被引量:3
5
作者 唐伦 李质萱 +2 位作者 蒲昊 汪智平 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2007-2015,共9页
针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以... 针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。 展开更多
关键词 无人机通信 动态部署 部分可观测马尔科夫博弈 多智能体深度强化学习
下载PDF
基于参数逼近的多智能体强化学习算法 被引量:2
6
作者 赵高长 刘豪 苏军 《计算机工程与设计》 北大核心 2020年第3期862-866,共5页
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数... 为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛。 展开更多
关键词 智能体系统 强化学习 马尔科夫博弈 Q学习 纳什均衡
下载PDF
基于攻击图的主动响应策略选择 被引量:2
7
作者 胡鹤 胡昌振 姚淑萍 《北京工业大学学报》 EI CAS CSCD 北大核心 2012年第11期1659-1664,共6页
为帮助管理员预先识别网络系统脆弱性及面临的潜在安全威胁,提出一种基于攻击图的主动响应策略选择方法.该方法利用攻击图模型分析网络攻击行为,预测攻击路径并进行定量分析.根据攻击过程中得到的观察匹配攻击图,更新信念状态,最终利用... 为帮助管理员预先识别网络系统脆弱性及面临的潜在安全威胁,提出一种基于攻击图的主动响应策略选择方法.该方法利用攻击图模型分析网络攻击行为,预测攻击路径并进行定量分析.根据攻击过程中得到的观察匹配攻击图,更新信念状态,最终利用部分马尔科夫博弈(POMG)算法进行最优主动响应策略选择.实验结果表明,基于攻击图的主动响应策略选择方法能提高响应的准确性和有效性. 展开更多
关键词 网络安全 部分马尔科夫博弈 攻击图
下载PDF
基于Q-learning的分布式基站缓存替换策略
8
作者 房晓阳 季新生 +2 位作者 刘彩霞 陈龙 杜福德 《信息工程大学学报》 2017年第5期526-530,共5页
针对传统替换策略的不足,提出一种基于Q-learning的缓存替换策略。该方法使用马尔科夫博弈模型描述多基站协作替换问题,以降低网络服务延迟为目标,利用分布式Q-learning算法获得Nash均衡点作为最优策略。实验表明,与其他缓存替换策略相... 针对传统替换策略的不足,提出一种基于Q-learning的缓存替换策略。该方法使用马尔科夫博弈模型描述多基站协作替换问题,以降低网络服务延迟为目标,利用分布式Q-learning算法获得Nash均衡点作为最优策略。实验表明,与其他缓存替换策略相比,该方法能够有效降低网路延迟,提升服务质量。 展开更多
关键词 缓存替换 马尔科夫博弈模型 Q-leamng 移动通信网
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部