期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于随机博弈与改进WoLF-PHC的网络防御决策方法 被引量:11
1
作者 杨峻楠 张红旗 张传富 《计算机研究与发展》 EI CSCD 北大核心 2019年第5期942-954,共13页
当前运用随机博弈的网络攻防分析方法采用完全理性假设,但在实际的网络攻防对抗中攻防双方很难达到完全理性的高要求,降低了现有方法的准确性和指导价值.从网络攻防对抗实际出发,分析有限理性对攻防随机博弈的影响,在有限理性约束下构... 当前运用随机博弈的网络攻防分析方法采用完全理性假设,但在实际的网络攻防对抗中攻防双方很难达到完全理性的高要求,降低了现有方法的准确性和指导价值.从网络攻防对抗实际出发,分析有限理性对攻防随机博弈的影响,在有限理性约束下构建攻防随机博弈模型.针对网络状态爆炸的问题,提出一种基于攻防图的网络状态与攻防动作提取方法,有效压缩了博弈状态空间.在上述基础上引入强化学习中的WoLF-PHC算法进行有限理性随机博弈分析并设计了具有在线学习能力的防御决策算法.该算法通过学习可以获得针对当前攻击者的最优防御策略,所得策略在有限理性下优于现有攻防随机博弈模型的纳什均衡策略.通过引入资格迹改进WoLF-PHC算法,进一步提高了防御者的学习速度.通过实验验证了所提方法的有效性与先进性. 展开更多
关键词 随机博弈 wolf-phc 网络攻防 防御决策 有限理性
下载PDF
计及风电的发电商报价多智能体模型
2
作者 黄飞虎 李沛东 +4 位作者 彭舰 董石磊 赵红磊 宋卫平 李强 《计算机科学》 CSCD 北大核心 2024年第S01期1183-1190,共8页
新型电力系统背景下,新能源发电商的报价问题一直是电力现货市场中的研究热点。相比传统能源,风电出力受外界不确定性因素的影响较大,给风力发电商求解最优报价带来了挑战。为此,基于多智能体强化学习算法WoLF-PHC构建了计及风电的发电... 新型电力系统背景下,新能源发电商的报价问题一直是电力现货市场中的研究热点。相比传统能源,风电出力受外界不确定性因素的影响较大,给风力发电商求解最优报价带来了挑战。为此,基于多智能体强化学习算法WoLF-PHC构建了计及风电的发电商报价策略模型。模型中,考虑了风电、火电和水电3种能源参与的现货市场,每一个发电商抽象为一个智能体,且基于随机约束规划算法建模风电智能体的收益函数;对于智能体的报价策略模型,将D3QN与WoLF-PHC算法结合,使模型能够满足报价时智能体状态空间复杂的情况;此外,对于交互环境的建模,提出利用DDPM扩散模型生成风电出力数据,优化风电出清场景的仿真。最后,基于3节点的电力仿真系统开展模拟实验,实验结果表明,提出的风电收益函数建模、WoLF-PHC改进、风电出力生成等技术是可行的,能有效解决风电参与竞价的现货市场报价问题,并且能够在较少的迭代次数后学习到较优的策略。 展开更多
关键词 wolf-phc 多智能体强化学习 电力现货市场 竞价策略 扩散模型
下载PDF
基于多Agent强化学习的Ad hoc网络跨层拥塞控制策略 被引量:3
3
作者 邵飞 伍春 汪李峰 《电子与信息学报》 EI CSCD 北大核心 2010年第6期1520-1524,共5页
该文首先证明基于MAC层竞争造成的网络拥塞模型中存在纳什均衡点。其次,基于WOLF-PHC学习策略提出了一种跨层拥塞控制(WCS)机制。它在路由层中选择一对去耦合节点作为转发节点,同时在MAC层对源节点的发送数据进行分流,从而提高链路的空... 该文首先证明基于MAC层竞争造成的网络拥塞模型中存在纳什均衡点。其次,基于WOLF-PHC学习策略提出了一种跨层拥塞控制(WCS)机制。它在路由层中选择一对去耦合节点作为转发节点,同时在MAC层对源节点的发送数据进行分流,从而提高链路的空间重用性。仿真结果表明:在不需要交互任何信息的情况下,通过节点之间的相互博弈以后,采用WOLF-PHC算法能够找到每个节点的最佳分流概率进而使整体网络吞吐量达到最大值;同时当外界环境发生改变时,该算法能够较快地找到新的最佳分流概率从而实现对环境的自适应能力。 展开更多
关键词 Ad HOC 拥塞控制 跨层设计 博弈论 wolf-phc
下载PDF
基于多Agent的季节性商品动态定价算法 被引量:2
4
作者 陆慧 《计算机应用》 CSCD 北大核心 2011年第11期3135-3139,共5页
研究两个提供商销售季节性商品时的最优定价策略问题。在性能势理论的基础上,针对季节性商品的特殊属性,建立两个提供商之间没有信息交互情况下的季节性商品的动态定价模型,并引入了Q学习算法和Wolf-PHC算法。通过仿真实验对DF方法定价,... 研究两个提供商销售季节性商品时的最优定价策略问题。在性能势理论的基础上,针对季节性商品的特殊属性,建立两个提供商之间没有信息交互情况下的季节性商品的动态定价模型,并引入了Q学习算法和Wolf-PHC算法。通过仿真实验对DF方法定价,Q学习算法定价和Wolf-PHC算法定价进行比较,得到Wolf-PHC算法定价的优化效果更明显,适应性更强。 展开更多
关键词 季节性商品 动态定价 Q学习算法 wolf-phc算法
下载PDF
基于快速强化学习的无线通信干扰规避策略 被引量:5
5
作者 李芳 熊俊 +3 位作者 赵肖迪 赵海涛 魏急波 苏曼 《电子与信息学报》 EI CSCD 北大核心 2022年第11期3842-3849,共8页
针对无线通信环境中存在未知且动态变化的干扰,该文联合考虑通信信道接入和发射功率控制提出了基于快速强化学习的未知干扰规避策略,以确保通信收发端的可靠通信。将干扰规避问题建模为马尔可夫决策过程,其优化目标为在保证通信质量的... 针对无线通信环境中存在未知且动态变化的干扰,该文联合考虑通信信道接入和发射功率控制提出了基于快速强化学习的未知干扰规避策略,以确保通信收发端的可靠通信。将干扰规避问题建模为马尔可夫决策过程,其优化目标为在保证通信质量的前提下同时降低系统发射功率和减少信道切换次数。随后,提出一种赢或学习快速策略爬山(WoLF-PHC)学习方法的干扰规避方案,从而实现快速规避干扰的目的。仿真结果表明,在不同干扰模式下,所提WoLF-PHC算法的抗干扰性能、收敛速度均优于传统的随机选择方法和Q学习算法。 展开更多
关键词 干扰规避 赢或学习快速策略爬山 Q学习 马尔可夫决策
下载PDF
基于强化学习的异步动态定价算法 被引量:4
6
作者 王金田 唐昊 +1 位作者 程文娟 毕翔 《系统工程学报》 CSCD 北大核心 2011年第5期664-670,共7页
研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF-PHC算法,通过一个数值例子比较了相关算法的学习优化效果.仿真结果表... 研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF-PHC算法,通过一个数值例子比较了相关算法的学习优化效果.仿真结果表明,Q学习和WoLF-PHC算法都能较好地解决异步动态定价问题,但由于后者采用混合策略和可变学习率,故能更好地适应环境变化,并具有更好的学习优化效果. 展开更多
关键词 异步动态定价 多AGENT 性能势 WoLF—PHC算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部