期刊文献+
共找到152篇文章
< 1 2 8 >
每页显示 20 50 100
基于多维度优先级经验回放机制的深度确定性策略梯度算法
1
作者 荣垂霆 李海军 +2 位作者 朱恒伟 刘延旭 于士军 《德州学院学报》 2024年第4期21-27,32,共8页
为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类... 为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类;其次,利用稀缺性和新奇性两个指标对样本进行评分,并将稀缺性和新奇性的评分进行加权组合,得到最终的优先级评分;最后,将设计的多维度优先级经验回放机制方法应用在深度确定性策略梯度算法中,在强化学习连续控制任务中对改进算法进行测试,实验结果表明,改进算法的收敛速度有所提升。 展开更多
关键词 深度确定性策略梯度算法 强化学习 经验回放机制 多维度优先级
下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:3
2
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能深度确定性策略梯度
下载PDF
基于深度确定性策略梯度的PEMFC的水泵和散热器联合控制研究
3
作者 赵洪山 潘思潮 +2 位作者 吴雨晨 马利波 吕廷彦 《太阳能学报》 EI CAS CSCD 北大核心 2024年第6期92-101,共10页
针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体... 针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体。首先确定智能体的状态空间和动作空间,然后由控制目标设定奖励函数,最后在仿真平台上验证该算法的有效性。结果表明,所提出的联合控制策略可有效地同时控制冷却水流速和空气流速,从而提高质子交换膜燃料电池(PEMFC)的运行效率。 展开更多
关键词 深度学习 强化学习 质子交换膜燃料电池 智能控制 深度确定性策略梯度
下载PDF
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
4
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(DDPG)算法 自主安全航行
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:7
5
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:4
6
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
7
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 双延迟深度确定性策略梯度(TD3) Softmax深层双确定性策略梯度(SD3) 强化学习
下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:5
8
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 智能 粒子群优化算法
下载PDF
基于多智能体深度确定策略梯度算法的有功-无功协调调度模型 被引量:21
9
作者 赵冬梅 陶然 +2 位作者 马泰屹 夏轩 王浩翔 《电工技术学报》 EI CSCD 北大核心 2021年第9期1914-1925,共12页
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解... 实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解决电力系统环境在多智能体探索过程中出现的不稳定问题,采用多智能体深度确定策略梯度算法,设计适用于有功-无功协调调度模型的电力系统多智能体环境,构造智能体状态、动作和奖励函数。通过算例仿真和对比分析,验证所提模型及算法的有效性。 展开更多
关键词 多智能 多智能深度确定策略梯度算法 策略迭代 灵活调控资源 有功-无功协调
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
10
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能Softmax深层双确定性策略梯度
下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
11
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能体深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
下载PDF
基于多智能体深度强化学习的多星观测任务分配方法
12
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能系统 深度强化学习 多星系统 多智能体深度确定性策略梯度算法 任务规划
下载PDF
基于深度确定性策略梯度的智能车汇流模型 被引量:4
13
作者 吴思凡 杜煜 +2 位作者 徐世杰 杨硕 杜晨 《计算机工程》 CAS CSCD 北大核心 2020年第1期87-92,共6页
采用离散动作空间描述速度变化的智能车汇流模型不能满足实际车流汇入场景的应用要求,而深度确定性策略梯度(DDPG)结合策略梯度和函数近似方法,采用与深度Q网络(DQN)相同的网络结构,并使用连续动作空间对问题进行描述,更适合描述智能车... 采用离散动作空间描述速度变化的智能车汇流模型不能满足实际车流汇入场景的应用要求,而深度确定性策略梯度(DDPG)结合策略梯度和函数近似方法,采用与深度Q网络(DQN)相同的网络结构,并使用连续动作空间对问题进行描述,更适合描述智能车速度变化。为此,提出一种基于DDPG算法的智能车汇流模型,将汇流问题转化为序列决策问题进行求解。实验结果表明,与基于DQN的模型相比,该模型的收敛速度较快,稳定性和成功率较高,更适合智能车汇入车辆场景的应用。 展开更多
关键词 智能 汇流 深度确定性策略梯度 深度Q网络 连续动作空间
下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
14
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 双经验回放池
下载PDF
引入积分补偿的四旋翼确定性策略梯度控制器 被引量:1
15
作者 孙丹 高东 +1 位作者 郑建华 韩鹏 《计算机工程与设计》 北大核心 2023年第1期255-261,共7页
为实现四旋翼无人机位置姿态的自主智能控制,结合强化学习中深度确定性策略梯度算法设计无人机智能控制器,对该控制器在四旋翼位置跟踪过程中出现静差的现象进行分析,提出带积分补偿的改进深度确定性策略梯度算法。仿真结果表明,引入积... 为实现四旋翼无人机位置姿态的自主智能控制,结合强化学习中深度确定性策略梯度算法设计无人机智能控制器,对该控制器在四旋翼位置跟踪过程中出现静差的现象进行分析,提出带积分补偿的改进深度确定性策略梯度算法。仿真结果表明,引入积分补偿的改进深度确定性策略梯度控制器能够实现四旋翼位置姿态的自主稳定控制,位置误差为零,在奖励函数变化后控制过程依然保持平稳,表明积分补偿的加入能够有效消除位置跟踪静差,提高控制的准确性,增强系统的稳定性。 展开更多
关键词 深度确定性策略梯度 积分补偿 静差 四旋翼控制 自主学习 智能控制 未知动力学模型
下载PDF
基于双延迟深度确定性策略梯度的船舶自主避碰方法 被引量:7
16
作者 刘钊 周壮壮 +1 位作者 张明阳 刘敬贤 《交通信息与安全》 CSCD 北大核心 2022年第3期60-74,共15页
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延... 为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法。根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移。运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强。 展开更多
关键词 交通信息工程 船舶避碰 智能决策 深度强化学习 双延迟深度确定性策略梯度
下载PDF
基于多智能体深度强化学习的解耦控制方法
17
作者 肖钟毓 夏钟升 +1 位作者 洪文晶 师佳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期570-582,共13页
[目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问... [目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问题的设计方案,并通过连续搅拌反应过程的解耦控制仿真计算,验证了设计方案的有效性.[结果]验证结果表明:本文所提出的方案能够同时对连续搅拌反应过程中反应温度、产物摩尔流量两个被控量的设定控制目标进行跟踪调节,且在同样的控制目标下,该设计方案比单智能体方案和PID(proportional-integral-derivative control)控制方案都具有更好的稳定性与更小的稳态控制误差.[结论]仿真结果表明:针对复杂非线性多输入多输出系统的解耦控制问题,多智能体强化学习算法能够在不依赖于过程模型的基础上,实现复杂非线性多输入多输出系统的解耦控制,并保证较好的控制性能. 展开更多
关键词 多智能强化学习 解耦控制 深度确定性策略梯度 连续搅拌反应器 非线性多输入多输出系统
下载PDF
基于多智能体算法的多微电网-配电网分层协同调度策略 被引量:15
18
作者 陈池瑶 苗世洪 +3 位作者 姚福星 王廷涛 王佳旭 魏文荣 《电力系统自动化》 EI CSCD 北大核心 2023年第10期57-65,共9页
近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以... 近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以兼顾配电网运营商及微电网等多主体的利益诉求,也难以满足调度过程的计算高效性与通信私密性要求。对此,提出了一种基于多智能体算法的多微电网-配电网分层协同调度策略。首先,考虑配电网运营商与微电网在电力市场运行中的主从关系,构建了基于双层Stackelberg博弈的多微电网-配电网电力交易模型;然后,将多微电网-配电网协同调度表述为马尔可夫决策过程,采用基于数据驱动的多智能体深度策略性梯度算法求解Stackelberg均衡;最后,基于改进IEEE 33节点系统开展算例分析,验证了所提模型及算法的有效性。 展开更多
关键词 多微电网 配电网 STACKELBERG博弈 多智能 深度确定性策略梯度算法 协同调度
下载PDF
基于多智能体深度强化学习的实时配电网电压优化控制方法研究
19
作者 周荃 《电器工业》 2024年第5期40-44,共5页
本研究致力于配电网电压优化控制,特别是在动态和不确定性环境中。研究采用多智能体深度强化学习(MADRL)方法,并引入改进型双延迟深度确定性策略梯度(TD3)算法,克服了深度Q网络(DQN)和深度确定性策略梯度(DDPG)在高维问题处理和Q值估计... 本研究致力于配电网电压优化控制,特别是在动态和不确定性环境中。研究采用多智能体深度强化学习(MADRL)方法,并引入改进型双延迟深度确定性策略梯度(TD3)算法,克服了深度Q网络(DQN)和深度确定性策略梯度(DDPG)在高维问题处理和Q值估计中的局限性。通过仿真测试,研究展示了该方法在电压控制和降低网损方面的显著优势,特别在多变电网环境中表现出高效的适应性和鲁棒性。本研究不仅推进了MADRL技术在电力系统中的应用,也为实际电网运行提供了有效的控制策略,增强了电力系统的可靠性和稳定性。 展开更多
关键词 配电网电压控制 多智能深度强化学习 双延迟深度确定性策略梯度算法 电网鲁棒性
下载PDF
基于多智能体强化学习的配电网电压分散控制
20
作者 马刚 马健 +4 位作者 颜云松 陈永华 赖业宁 李祝昆 唐靖 《综合智慧能源》 CAS 2024年第10期32-39,共8页
大规模分散资源接入配电网改变了传统配电网的潮流分布,导致电压频繁越限。以模型为基础的电压控制方法对电力系统网络拓扑结构要求较高,求解时间较长,不能达到电压实时控制要求。为此,提出一种考虑异步训练的多智能体在线学习配电网电... 大规模分散资源接入配电网改变了传统配电网的潮流分布,导致电压频繁越限。以模型为基础的电压控制方法对电力系统网络拓扑结构要求较高,求解时间较长,不能达到电压实时控制要求。为此,提出一种考虑异步训练的多智能体在线学习配电网电压分散控制策略。该方法将每个光伏逆变器都视为一个智能体。首先对智能体进行分区调整,然后将配电网的电压无功控制问题建模为马尔可夫决策过程,在满足系统分布式约束的基础上,采用多智能体强化学习分散控制框架,结合多智能体深度确定性策略梯度算法对多智能体进行训练。经过训练的智能体可以不需要实时通信,利用局部信息实现分散决策,制定光伏逆变器的出力计划,做到电压实时控制,减少网络损耗。最后,通过仿真验证了该方法的有效性和鲁棒性。 展开更多
关键词 配电网 多智能 电压分散控制 多智能体深度确定性策略梯度算法 马尔可夫决策过程
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部