期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
一种结合MADDPG和对比学习的无人机追逃博弈方法
1
作者 王若冰 王晓芳 《宇航学报》 EI CAS CSCD 北大核心 2024年第2期262-272,共11页
针对复杂作战环境中无人机的追逃博弈问题,建立了其马尔科夫模型,采用零和博弈思想,设计了追逃双方的奖励函数。构建了集中训练-分布执行的多智能体深度确定性强化学习算法(MADDPG)的训练流程,求解得到追逃博弈的纳什均衡解。针对以追... 针对复杂作战环境中无人机的追逃博弈问题,建立了其马尔科夫模型,采用零和博弈思想,设计了追逃双方的奖励函数。构建了集中训练-分布执行的多智能体深度确定性强化学习算法(MADDPG)的训练流程,求解得到追逃博弈的纳什均衡解。针对以追逃双方初始位置等高维向量构成的捕获域(逃逸域)难以解析表征的问题,在MADDPG博弈网络基础上,结合深度对比学习算法,通过构建和训练孪生神经网络,实现了对高维捕获域(逃逸域)的间接表征。仿真结果表明,MADDPG算法可以有效求出给定条件下的无人机追逃博弈的纳什均衡解,同时,对比学习算法结合收敛的MADDPG网络对高维的捕获域(逃逸域)表征的正确率达到95%。 展开更多
关键词 无人机(UAV) 追逃博弈 多智能体 强化学习 纳什均衡 深度对比学习
下载PDF
基于博弈论与强化学习的多智能体路径规划算法
2
作者 熊文博 郭磊 焦彤宇 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第3期274-282,共9页
针对平面上多个智能体构成的路径规划求解算法普遍存在的速度慢效率低等问题进行研究,将多智能体路径规划问题归结为非零和随机博弈,使用多智能体强化学习算法赢或快速学习-策略爬山(win or learn fast-policy hill-climbing,WoLF-PHC)... 针对平面上多个智能体构成的路径规划求解算法普遍存在的速度慢效率低等问题进行研究,将多智能体路径规划问题归结为非零和随机博弈,使用多智能体强化学习算法赢或快速学习-策略爬山(win or learn fast-policy hill-climbing,WoLF-PHC)得到纳什均衡策略,为各智能体做出无冲突的最优路径决策,提出能够快速自适应的WoLF-PHC(fast adaptive WoLF-PHC,FA-WoLF-PHC)算法,通过构建目标函数,使用梯度下降对学习率进行自适应更新.在猜硬币和自定义收益矩阵2个博弈场景中使用FA-WoLF-PHC,并与策略爬山(policy hill-climbing,PHC)算法和Wolf-PHC算法进行比较.结果表明,FA-WoLF-PHC算法的学习速度较WoLF-PHC算法有所提升,并有效减小了WoLF-PHC算法和PHC算法在学习过程中出现的振荡现象.在多智能体路径规划问题中,FA-WoLF-PHC算法的学习速度比WoLF-PHC算法提高了16.01%.将路径规划问题的环境栅格地图扩大为6×6,智能体数量增加为3个时,FA-WoLF-PHC、WoLF-PSP和多头绒泡菌-人工势场Sarsa(physarum polycephalum-artificial potential state-action-reward-state-action,PP-AP Sarsa)算法在10次实验中学习到最终策略需要的平均时间分别为16.30、20.59和17.72 s.在多智能体路径规划问题中,FA-WoLF-PHC算法能够得到各智能体的纳什均衡策略,学习速度较WoLF-PSP和PP-AP Sarsa算法有显著提高.FA-WoLF-PHC算法在常见的博弈场景中能够快速获得纳什策略,在多智能体路径规划问题中可为多个智能体生成无冲突的最优路径,并且在学习速度等方面较其他算法有显著提高. 展开更多
关键词 人工智能 博弈 动态规划 纳什均衡策略 强化学习 多智能体路径规划
下载PDF
多智能体博弈中的分布式学习:原理与算法
3
作者 谭少林 谷海波 刘克新 《指挥与控制学报》 CSCD 北大核心 2024年第2期127-136,共10页
自主智能决策是未来无人系统发展的核心技术,而博弈学习是实现自主智能决策的关键方法之一。围绕多智能体博弈中分布式学习领域,系统地介绍其基本问题、研究背景及意义;针对连续动作空间博弈与离散动作空间博弈两种典型博弈类型,综述多... 自主智能决策是未来无人系统发展的核心技术,而博弈学习是实现自主智能决策的关键方法之一。围绕多智能体博弈中分布式学习领域,系统地介绍其基本问题、研究背景及意义;针对连续动作空间博弈与离散动作空间博弈两种典型博弈类型,综述多智能体博弈分布式学习算法的构建及收敛性研究进展;给出博弈学习领域尚待突破的挑战性问题。 展开更多
关键词 博弈学习 分布式算法 智能决策 纳什均衡 多智能体系统 集群智能
下载PDF
基于多维拍卖与主从博弈的联邦学习激励机制
4
作者 江帆 陈紫东 +1 位作者 王军选 禹忠 《西安邮电大学学报》 2024年第2期27-37,共11页
为了在复杂的用户成本与有限的基站预算下保证训练用户持续参与整个联邦学习训练过程,提出一种基于多维拍卖与主从博弈模型的联邦学习激励机制。该机制结合用户自身的数据质量、数量及历史声誉等指标,采用多维拍卖法从所有拟参与拍卖的... 为了在复杂的用户成本与有限的基站预算下保证训练用户持续参与整个联邦学习训练过程,提出一种基于多维拍卖与主从博弈模型的联邦学习激励机制。该机制结合用户自身的数据质量、数量及历史声誉等指标,采用多维拍卖法从所有拟参与拍卖的用户中选出排名前K名的用户参与联邦学习训练过程。利用主从博弈法得到基站的最优奖励和训练用户的最佳训练成本,并确定双方博弈的纳什均衡解。仿真结果表明,与固定激励机制及无激励机制相比,在数据独立同分布(Independent Identically Distributed,IID)和非独立同分布(Non-Independent Identically Distributed,Non-IID)情况下,所提机制的准确率与全局训练损失均优于对比机制,能够保证训练用户持续参与整个联邦学习训练过程。 展开更多
关键词 移动边缘计算 联邦学习 多维拍卖 主从博弈 纳什均衡
下载PDF
基于EWA博弈学习模型的股权分置改革对价均衡研究 被引量:5
5
作者 饶育蕾 徐艳辉 《中国管理科学》 CSSCI 2008年第1期172-179,共8页
本文以股权分置改革中以纯送股方式支付对价的936家A股上市公司为样本,从行为博弈的角度,用EWA学习模型研究了其对价均衡的形成机理,并对均衡的形成过程进行了模拟。模拟结果表明EWA学习模型成功捕捉了对价均衡的形成过程,说明股权分置... 本文以股权分置改革中以纯送股方式支付对价的936家A股上市公司为样本,从行为博弈的角度,用EWA学习模型研究了其对价均衡的形成机理,并对均衡的形成过程进行了模拟。模拟结果表明EWA学习模型成功捕捉了对价均衡的形成过程,说明股权分置改革对价博弈是一个基于策略学习的博弈过程。对模型参数的分析表明:博弈双方即非流通股股东和流通股股东具有极强的学习能力,但这种学习仅为对过去经验的纯策略学习;同时非流通股股东制定方案时对策略收益赋予较小的权重,说明决策双方博弈地位的不对等在很大程度上决定了不公平对价均衡的形成。 展开更多
关键词 股权分置改革 对价均衡 行为博弈 EWA学习
下载PDF
非正式学习服务下的大学生资源阅读协作
6
作者 林晓欣 《科技资讯》 2022年第23期202-206,236,共6页
学习合作是人的本能,是使知识更富有成效的知识信息共享经济。该文以猎鹿博弈的大学生之间的资源阅读的协作行为中来分析利用高校图书馆的资源,并解读大学生非正式学习中的资源阅读对量过程中所能形成的合作性学习博弈的视角,并能实现... 学习合作是人的本能,是使知识更富有成效的知识信息共享经济。该文以猎鹿博弈的大学生之间的资源阅读的协作行为中来分析利用高校图书馆的资源,并解读大学生非正式学习中的资源阅读对量过程中所能形成的合作性学习博弈的视角,并能实现合作性学习博弈的意义。并且,图书馆内的非正式学习也是继承中国古代书院的学术科研。非正式学习能够实现社会教育示范的影响。 展开更多
关键词 非正式学习中的资源阅读协作 合作性学习博弈的视角 非正式学习的博弈均衡 非正式学习的 务策略
下载PDF
两方零和马尔科夫博弈策略梯度算法及收敛性分析
7
作者 王卓 李永强 +1 位作者 冯宇 冯远静 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第3期480-491,共12页
为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定... 为了解决基于策略的强化学习方法在两方零和马尔科夫博弈中学习效率低下的问题,提出同时更新双方玩家策略的近似纳什均衡策略优化算法.将两方零和马尔科夫博弈问题描述为最大最小优化问题,针对参数化策略,给出马尔科夫博弈的策略梯度定理,并通过近似随机策略梯度的推导,为算法实施提供可行性基础.通过比较分析不同的最大最小问题梯度更新方法,发现额外梯度相较于其他方法具有更好的收敛性能.基于这一发现,提出基于额外梯度的近似纳什均衡策略优化算法,并给出算法的收敛性证明.在Oshi-Zumo游戏上,使用表格式softmax参数化策略以及神经网络作为参数化策略,验证不同游戏规模场景下算法的有效性.通过对比实验,验证算法相对于其他方法的收敛性和优越性. 展开更多
关键词 两方零和马尔科夫博弈 强化学习 策略优化 额外梯度 纳什均衡 神经网络
下载PDF
演化博弈强化学习模型在智能博弈对抗中的应用
8
作者 王军 曹雷 +2 位作者 赵伟 张人文 龚洪涛 《陆军工程大学学报》 2023年第5期34-43,共10页
智能化指挥控制的核心问题是智能决策问题,智能决策的基础是作战计划的推演和行动计划的优化。演化博弈强化学习模型通过引入演化博弈,使模型能够充分考虑对手的博弈意志和指挥艺术,并且在求解过程中可以使用现有的强化学习算法进一步... 智能化指挥控制的核心问题是智能决策问题,智能决策的基础是作战计划的推演和行动计划的优化。演化博弈强化学习模型通过引入演化博弈,使模型能够充分考虑对手的博弈意志和指挥艺术,并且在求解过程中可以使用现有的强化学习算法进一步提升模型的效率。针对离散和连续两种不同场景,分别推导出对应的复因子动力学方程,并给出了非对称博弈问题的一般性求解策略,摆脱了“理性人”这一假设的演化博弈强化模型。相较于现有模型,表征精度更好,刻画博弈对抗更精确,更符合军事对抗实际,有助于智能蓝军的精准化建设,相关结论在多智能体建模平台NetLogo上进行了验证。 展开更多
关键词 智能化指挥控制 演化博弈 强化学习 纳什均衡
下载PDF
不确定性下的博弈强化学习
9
作者 陈英 王军 +1 位作者 陈希亮 张启阳 《计算机工程与设计》 北大核心 2023年第11期3477-3488,共12页
针对博弈强化学习中环境、信息、和激励函数的不确定性问题,通过对现有博弈强化学习算法的仔细研究和横向比较,以确定性方案、即时方案和适度推理方案3个角度对算法和模型进行系统归纳梳理,剖析多学科领域知识是如何相互融合并解决博弈... 针对博弈强化学习中环境、信息、和激励函数的不确定性问题,通过对现有博弈强化学习算法的仔细研究和横向比较,以确定性方案、即时方案和适度推理方案3个角度对算法和模型进行系统归纳梳理,剖析多学科领域知识是如何相互融合并解决博弈强化学习的各类不确定性问题,指出博弈强化学习研究的重难点和今后的重点发展方向。结合模糊推理系统和分形与分数阶微积分理论给出一些新型解决思路。 展开更多
关键词 强化学习 博弈 不确定性 纯策略纳什均衡 分形 模糊系统 智能决策
下载PDF
纯策略纳什均衡的博弈强化学习 被引量:1
10
作者 王军 曹雷 +2 位作者 陈希亮 陈英 赵芷若 《计算机工程与应用》 CSCD 北大核心 2022年第15期78-86,共9页
将博弈理论与多智能体强化学习结合形成博弈强化学习逐渐受到关注,但是也存在算法的计算复杂度高和无法保证纯策略纳什均衡的问题。Meta equilibrium Q-learning算法通过反应函数将原始博弈转换为元博弈,而元博弈推导出的元均衡是纯策... 将博弈理论与多智能体强化学习结合形成博弈强化学习逐渐受到关注,但是也存在算法的计算复杂度高和无法保证纯策略纳什均衡的问题。Meta equilibrium Q-learning算法通过反应函数将原始博弈转换为元博弈,而元博弈推导出的元均衡是纯策略纳什均衡。该算法在保证纯策略纳什均衡的前提下能够使得每个智能体的回报不低于某特定阈值。同时,基于分形的均衡程度评估模型能够通过计算任意状态的分形维数来判断其稳态,并评估任意状态与均衡状态之间的距离,该模型可以检验元均衡的科学性与合理性,上述算法和模型的相关结论在福利博弈和夺控战中都得到具体验证。 展开更多
关键词 纯策略纳什均衡 强化学习 博弈 分形
下载PDF
高等教育场域多元利益主体的博弈均衡——基于学习者利益视角
11
作者 王双 《黄冈师范学院学报》 2016年第4期88-91,共4页
高等教育场域中存在社会多元主体的不同教育诉求,个人利益在多元利益主体的博弈中往往被置于次要地位,具体表现为学习者需求得不到充分满足。为了直观地反映这一客观事实,通过学习需求评估来说明问题。以影响最广泛的公共基础课之一英... 高等教育场域中存在社会多元主体的不同教育诉求,个人利益在多元利益主体的博弈中往往被置于次要地位,具体表现为学习者需求得不到充分满足。为了直观地反映这一客观事实,通过学习需求评估来说明问题。以影响最广泛的公共基础课之一英语为例,从学习需求评估的视角,通过对课程设置、信息技术和教学评估方面的学习者需求进行调查,分析学习者需求尚未得到满足的具体表现。本着实现多元利益主体博弈均衡的目的,从课程设置、信息技术和教学评估方面提出相应的建议。 展开更多
关键词 多元利益主体 博弈 博弈均衡 学习者需求 学习需求评估
下载PDF
基于Stackelberg博弈的异步联邦学习激励机制设计
12
作者 李炳泽 《现代信息科技》 2023年第24期37-40,共4页
联邦学习作为能够保护数据隐私和保证数据安全的新型分布式机器学习被广泛关注,异步联邦学习作为传统联邦学习的变种,能有效提高模型训练效率。激励机制的引入能够帮助异步联邦学习有效提高模型训练效用。利用Stackelberg博弈构建了一... 联邦学习作为能够保护数据隐私和保证数据安全的新型分布式机器学习被广泛关注,异步联邦学习作为传统联邦学习的变种,能有效提高模型训练效率。激励机制的引入能够帮助异步联邦学习有效提高模型训练效用。利用Stackelberg博弈构建了一个联邦学习激励机制,分别对中心服务器和数据拥有者效用进行优化。在此基础上,推导出了整个博弈的均衡解,最后通过算例分析了模型的可行性,得到最优的激励效果。 展开更多
关键词 联邦学习 STACKELBERG博弈 鲁棒优化 数据质量 纳什均衡
下载PDF
基于强化学习的无线传感器网络入侵检测攻防博弈研究 被引量:13
13
作者 蔡玲如 朱理 +2 位作者 黄瑞崧 蔡伟鸿 陈银冬 《计算机应用研究》 CSCD 北大核心 2022年第12期3786-3790,共5页
无线传感器网络易遭到各种内部攻击,入侵检测系统需要消耗大量能量进行攻击检测以保障网络安全。针对无线传感器网络入侵检测问题,建立恶意节点(malicious node,MN)与簇头节点(cluster head node,CHN)的攻防博弈模型,并提出一种基于强... 无线传感器网络易遭到各种内部攻击,入侵检测系统需要消耗大量能量进行攻击检测以保障网络安全。针对无线传感器网络入侵检测问题,建立恶意节点(malicious node,MN)与簇头节点(cluster head node,CHN)的攻防博弈模型,并提出一种基于强化学习的簇头入侵检测算法——带有近似策略预测的策略加权学习算法(weighted policy learner with approximate policy prediction,WPL-APP)。实验表明,簇头节点采用该算法对恶意节点进行动态检测防御,使得博弈双方快速达到演化均衡,避免了网络出现大量检测能量消耗和网络安全性能的波动。 展开更多
关键词 无线传感器网络 入侵检测 攻防博弈 强化学习 演化均衡
下载PDF
未知环境中基于图型博弈和multi-Q学习的动态信道选择算法 被引量:2
14
作者 李方伟 唐永川 朱江 《通信学报》 EI CSCD 北大核心 2013年第11期1-7,共7页
研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习... 研究了分布式无线网络中,没有任何信息交换、也没有环境变化先验知识情况下的动态信道接入算法。运用图型博弈模型对用户的实际拓扑进行建模分析,证明了此博弈模型存在纯策略纳什均衡并且此纳什均衡是全局最优解。同时,采用multi-Q学习求解模型的纯策略纳什均衡解。仿真实验验证了multi-Q学习能获得较高的系统容量以及在图型博弈模型中用户的效用主要由节点的度决定,而与用户数量无直接关系。 展开更多
关键词 动态信道选择 图型博弈 multi-Q学习 纯策略纳什均衡
下载PDF
考虑博弈的多智能体强化学习分布式信号控制 被引量:11
15
作者 曲昭伟 潘昭天 +2 位作者 陈永恒 李海涛 王鑫 《交通运输系统工程与信息》 EI CSCD 北大核心 2020年第2期76-82,100,共8页
交通需求的不均衡和波动会增加分布式信号控制优化的难度.由于现有独立动作的多智能体强化学习(IA-MARL)仅基于自身的历史经验做出决策,基于IA-MARL的分布式信号控制难以及时缓解交通需求不均衡和波动的影响.本文融入博弈论的混合策略... 交通需求的不均衡和波动会增加分布式信号控制优化的难度.由于现有独立动作的多智能体强化学习(IA-MARL)仅基于自身的历史经验做出决策,基于IA-MARL的分布式信号控制难以及时缓解交通需求不均衡和波动的影响.本文融入博弈论的混合策略纳什均衡概念,改进IA-MARL的决策过程,提出考虑博弈的多智能体强化学习(G-MARL)框架.在采用带有泊松到达率的道路网络流量不均衡输入的格子网络中,分别对基于IA-MARL和GMARL的分布式控制方法进行数值模拟,获取单位行程时间和单位车均延误曲线.结果显示,与IA-MARL相比,G-MARL在单位行程时间和单位车均延误方面分别改善59.94%和81.45%.证明G-MARL适用于不饱和且交通需求不均衡和波动的分布式信号控制. 展开更多
关键词 智能交通 分布式交通信号控制 多智能体强化学习 均衡需求下的城市道路网络 博弈 数值模拟
下载PDF
从我国证券市场两次制度变迁看非正式约束的影响 被引量:1
16
作者 李庆峰 杨义群 朱允卫 《中国农业大学学报(社会科学版)》 2002年第4期34-38,共5页
新制度学派认为 ,正式制度安排只有在社会认可 ,即与非正式约束相容的情况下 ,才能发挥作用。文章从非正式约束和个人理性的视角 ,以博弈论作为分析工具 ,应用制度变迁相关理论 ,比较了中国证券市场所经历的两次制度变迁——国企股份制... 新制度学派认为 ,正式制度安排只有在社会认可 ,即与非正式约束相容的情况下 ,才能发挥作用。文章从非正式约束和个人理性的视角 ,以博弈论作为分析工具 ,应用制度变迁相关理论 ,比较了中国证券市场所经历的两次制度变迁——国企股份制改造和国有股减持 。 展开更多
关键词 证券市场 制度变迁 正式约束 非正式约束 相容 博弈 均衡 中国
下载PDF
基于局部信息交互的博弈学习算法 被引量:3
17
作者 殷文龙 姚昌华 《计算机应用研究》 CSCD 北大核心 2017年第7期1953-1956,共4页
频谱资源异构性是5G通信系统的重要特性之一。为实现频谱资源分配与需求的最优匹配,关注5G微蜂窝的异构信道选择问题。针对该问题,传统集中式优化机制系统效率较优但优化开销大,而传统分布式优化机制优化开销较少但系统效率受限。为实... 频谱资源异构性是5G通信系统的重要特性之一。为实现频谱资源分配与需求的最优匹配,关注5G微蜂窝的异构信道选择问题。针对该问题,传统集中式优化机制系统效率较优但优化开销大,而传统分布式优化机制优化开销较少但系统效率受限。为实现系统效率与优化开销的有效折中,将优化问题建模为局部合作博弈,提出基于局部信息交互的博弈学习算法,实现了系统在分布式优化机制下的最优频谱资源分配。仿真结果验证了算法的最优性、收敛性和稳健性。 展开更多
关键词 势能博弈 纳什均衡 局部合作 博弈学习
下载PDF
基于博弈学习多Agent交互研究
18
作者 陶雪丽 郑延斌 王宁 《计算机工程与设计》 CSCD 北大核心 2014年第12期4320-4323,4328,共5页
由于人们之间的博弈行为受多种因素的制约和影响,而传统的博弈方法很难处理这种影响因素多变、交互关系复杂的博弈问题,给出一个基于博弈学习的多智能体(multi-Agent)交互模型,并以此为基础构建多Agent交互的博弈学习方法。对合作小组... 由于人们之间的博弈行为受多种因素的制约和影响,而传统的博弈方法很难处理这种影响因素多变、交互关系复杂的博弈问题,给出一个基于博弈学习的多智能体(multi-Agent)交互模型,并以此为基础构建多Agent交互的博弈学习方法。对合作小组中成员的行为进行修正,通过博弈学习中学习因子的更新得到局部均衡,达到全局利益优化。实例仿真验证了该方法的可行性。 展开更多
关键词 交互 博弈学习 多智能体 均衡 学习因子
下载PDF
博弈论思想在远程学习者体验设计中的运用
19
作者 韩斌 《北京广播电视大学学报》 2015年第6期54-60,共7页
文章以提升远程学习者学习体验为目标,提出引入并运用博弈论的思想和方法,分析远程学习者与教育机构、教师、其他学习者的交互情形,辨别交互过程中各参与者的行为特征,并以此为体验设计工作分析和预测学习者行为提供理论依据,从而不断... 文章以提升远程学习者学习体验为目标,提出引入并运用博弈论的思想和方法,分析远程学习者与教育机构、教师、其他学习者的交互情形,辨别交互过程中各参与者的行为特征,并以此为体验设计工作分析和预测学习者行为提供理论依据,从而不断修正远程开放学习中所涉的交互规则和策略。 展开更多
关键词 远程学习 体验设计 博弈 均衡 合作
下载PDF
基于深度学习的多微电网市场主从博弈运行优化策略 被引量:5
20
作者 严文君 刘俊勇 《电力系统及其自动化学报》 CSCD 北大核心 2022年第7期120-128,共9页
针对多微电网市场新能源出力不确定性以及参与主体间利益关联与冲突导致的市场运行风险大、效率低等问题,提出基于图卷积神经网络与长短时记忆网络GCN-LSTM(graph convolutional neural network and long short-term memory network)时... 针对多微电网市场新能源出力不确定性以及参与主体间利益关联与冲突导致的市场运行风险大、效率低等问题,提出基于图卷积神经网络与长短时记忆网络GCN-LSTM(graph convolutional neural network and long short-term memory network)时空预测算法的多微电网市场主从博弈均衡优化策略。首先,从时空维度设计了基于深度强化学习算法的多微电网两阶段主从博弈均衡运行机制;然后,将多微电网市场中竞价主体间的相互作用构建两阶段滚动优化模型,根据决策阶段要求,以提升各微电网主体经济效益为目标,在实时调控阶段构建多主体主从博弈模型,对内部电价及设备出力进行调整,实现多微电网市场均衡独立优化运行。最后,通过算例分析表明,所提方法能有效降低微电网各发电主体出力的不确定性对市场稳定运行和新能源消纳的影响,提高市场经济效益。 展开更多
关键词 多微电网市场 主从博弈 深度强化学习 纳什均衡 运行优化
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部