期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
稀疏奖励下基于课程学习的无人机空战仿真
1
作者 祝靖宇 张宏立 +4 位作者 匡敏驰 史恒 朱纪洪 乔直 周文卿 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1452-1467,共16页
针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计... 针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计了离散化的动作空间,构建了局部观测与全局观测分离的演员评论家网络。通过为无人机制定进攻、防御以及综合课程,让无人机从基本课程由浅入深开始学习作战技能,阶段性提升无人机作战能力。实验结果表明:以课程学习方式训练的无人机能以一定的优势击败专家系统和主流强化学习算法,同时具有空战战术的自我学习能力,有效改善稀疏奖励的问题。 展开更多
关键词 UAVS 空战 稀疏奖励 课程学习 分布式近端策略优化
下载PDF
基于可迁移强化学习的断面输电极限计算方法
2
作者 李康文 邱高 +3 位作者 刘挺坚 刘友波 刘俊勇 丁理杰 《电网技术》 EI CSCD 北大核心 2023年第12期5147-5157,共11页
断面输电极限是电网安全边界在断面割集的降维投影,其实质是考虑电压无功优化和多类稳定约束的复杂混合整数非凸非线性问题,而新能源的引入进一步扩大了其计算维度,传统方法难以求解。为此,提出一种基于可迁移强化学习的断面输电极限计... 断面输电极限是电网安全边界在断面割集的降维投影,其实质是考虑电压无功优化和多类稳定约束的复杂混合整数非凸非线性问题,而新能源的引入进一步扩大了其计算维度,传统方法难以求解。为此,提出一种基于可迁移强化学习的断面输电极限计算方法。首先,考虑暂态功角及电压稳定约束,计及包括电容器组等无功资源,建立含微分代数方程的输电极限混合整数计算模型;然后,将该模型转化为混合整数的马尔科夫决策过程,提出基于混合Categorical分布的近端策略优化求解方法;最后,引入策略分布熵最大化目标,确保智能计算模型在未见运行方式下的迁移能力,实现运行方式或边界条件切换下的输电极限快速分析。IEEE39节点系统的算例结果表明,相比传统元启发式黑盒优化算法,所提方法在几乎不牺牲精度的前提下效率提升了97.15%。 展开更多
关键词 输电极限 无功优化 可迁移强化学习 近端策略优化 策略分布熵
下载PDF
基于深度强化学习的分布式能源系统运行优化 被引量:8
3
作者 阮应君 侯泽群 +1 位作者 钱凡悦 孟华 《科学技术与工程》 北大核心 2022年第17期7021-7030,共10页
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优... 分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模;其次,深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(distributed proximal policy optimization,DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP);最后,采用历史的数据对智能体进行训练,训练完成的模型可以实现对分布式能源系统的实时优化,并对比了深度Q网络(deep Q network,DQN)算法和LINGO获得的调度策略。结果表明,基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。 展开更多
关键词 深度强化学习 分布式近端策略优化 分布式能源系统 运行优化
下载PDF
基于近端策略优化算法的灾后配电网韧性提升方法 被引量:4
4
作者 王子昊 王旭 +3 位作者 蒋传文 龚开 白冰青 邓晖 《电力系统自动化》 EI CSCD 北大核心 2022年第21期62-70,共9页
台风灾害易导致配电网线路断线,并解列成多个孤岛运行。如何高效实现配电网网络重构、分布式发电调度以促进灾后负荷恢复这一问题亟待解决。文中提出了一种基于深度强化学习近端策略优化(PPO)算法的灾后配电网韧性提升方法。首先,以灾... 台风灾害易导致配电网线路断线,并解列成多个孤岛运行。如何高效实现配电网网络重构、分布式发电调度以促进灾后负荷恢复这一问题亟待解决。文中提出了一种基于深度强化学习近端策略优化(PPO)算法的灾后配电网韧性提升方法。首先,以灾后配电网的节点电压偏差、负荷损失和发电成本最小为目标,构造了内层优化模型。其次,将灾后配电网韧性提升策略转化为多阶段马尔可夫决策过程,并构建了外层强化学习优化模型。以联络线开关的投切指令为控制变量,最大化负荷恢复为优化目标,并采用PPO算法进行求解。然后,分析了PPO算法的样本数据处理方法,并对PPO算法训练过程进行测试以验证该算法的收敛性。最后,采用改进的IEEE 33节点、IEEE 118节点配电网进行算例分析,验证了所提优化方法的可行性。 展开更多
关键词 配电网 韧性 近端策略优化 深度强化学习 灾害
下载PDF
针对集群攻击的飞行器智能协同拦截策略 被引量:1
5
作者 高树一 林德福 +1 位作者 郑多 胡馨予 《航空学报》 EI CAS CSCD 北大核心 2023年第18期271-286,共16页
无人集群间拦截博弈对抗是未来智能化战争的重要作战场景。针对飞行器集群攻击的协同拦截博弈对抗问题,提出了一种基于近端策略优化方法的多智能体深度强化学习协同拦截策略,将单智能体近端策略优化算法和集中式评价分布式执行算法架构... 无人集群间拦截博弈对抗是未来智能化战争的重要作战场景。针对飞行器集群攻击的协同拦截博弈对抗问题,提出了一种基于近端策略优化方法的多智能体深度强化学习协同拦截策略,将单智能体近端策略优化算法和集中式评价分布式执行算法架构相结合,设计了一种多智能体强化学习智能机动策略,在此基础上为解决算法收敛慢的问题,引入广义优势函数提升算法的收敛性能。仿真结果表明,多机智能协同拦截策略赋予飞行器自主学习的属性,能够根据实时战场态势智能自主分配拦截任务,且通过约束策略更新幅度提升了算法收敛速率。经过不断迭代自学习,能够实现拦截策略的自主优化,在不同的场景下自学习提升协同拦截效能。 展开更多
关键词 群目标协同拦截 近端策略优化 多智能体强化学习 集中式评价-分布式执行 深度学习
原文传递
Low-carbon Economic Dispatch of Electricity-Heat-Gas Integrated Energy Systems Based on Deep Reinforcement Learning 被引量:1
6
作者 Yuxian Zhang Yi Han +1 位作者 Deyang Liu Xiao Dong 《Journal of Modern Power Systems and Clean Energy》 SCIE EI CSCD 2023年第6期1827-1841,共15页
The optimal dispatch methods of integrated energy systems(IESs) currently struggle to address the uncertainties resulting from renewable energy generation and energy demand. Moreover, the increasing intensity of the g... The optimal dispatch methods of integrated energy systems(IESs) currently struggle to address the uncertainties resulting from renewable energy generation and energy demand. Moreover, the increasing intensity of the greenhouse effect renders the reduction of IES carbon emissions a priority. To address these issues, a deep reinforcement learning(DRL)-based method is proposed to optimize the low-carbon economic dispatch model of an electricity-heat-gas IES. In the DRL framework, the optimal dispatch model of the IES is formulated as a Markov decision process(MDP). A reward function based on the reward-penalty ladder-type carbon trading mechanism(RPLT-CTM) is introduced to enable the DRL agents to learn more effective dispatch strategies. Moreover, a distributed proximal policy optimization(DPPO) algorithm, which is a novel policy-based DRL algorithm, is employed to train the DRL agents. The multithreaded architecture enhances the exploration ability of the DRL agents in complex environments. Experimental results illustrate that the proposed DPPO-based IES dispatch method can mitigate carbon emissions and reduce the total economic cost. The RPLT-CTM-based reward function outperforms the CTM-based methods, providing a 4.42% and 6.41% decrease in operating cost and carbon emission, respectively. Furthermore, the superiority and computational efficiency of DPPO compared with other DRL-based methods are demonstrated by a decrease of more than 1.53% and 3.23% in the operating cost and carbon emissions of the IES, respectively. 展开更多
关键词 Integrated energy system(IES) carbon trading optimal dispatch deep reinforcement learning(DRL) distributed proximal policy optimization
原文传递
Deep Reinforcement Learning Based Charging Scheduling for Household Electric Vehicles in Active Distribution Network
7
作者 Taoyi Qi Chengjin Ye +2 位作者 Yuming Zhao Lingyang Li Yi Ding 《Journal of Modern Power Systems and Clean Energy》 SCIE EI CSCD 2023年第6期1890-1901,共12页
With the booming of electric vehicles(EVs) across the world, their increasing charging demands pose challenges to urban distribution networks. Particularly, due to the further implementation of time-of-use prices, the... With the booming of electric vehicles(EVs) across the world, their increasing charging demands pose challenges to urban distribution networks. Particularly, due to the further implementation of time-of-use prices, the charging behaviors of household EVs are concentrated on low-cost periods, thus generating new load peaks and affecting the secure operation of the medium-and low-voltage grids. This problem is particularly acute in many old communities with relatively poor electricity infrastructure. In this paper, a novel two-stage charging scheduling scheme based on deep reinforcement learning is proposed to improve the power quality and achieve optimal charging scheduling of household EVs simultaneously in active distribution network(ADN) during valley period. In the first stage, the optimal charging profiles of charging stations are determined by solving the optimal power flow with the objective of eliminating peak-valley load differences. In the second stage, an intelligent agent based on proximal policy optimization algorithm is developed to dispatch the household EVs sequentially within the low-cost period considering their discrete nature of arrival. Through powerful approximation of neural network, the challenge of imperfect knowledge is tackled effectively during the charging scheduling process. Finally, numerical results demonstrate that the proposed scheme exhibits great improvement in relieving peak-valley differences as well as improving voltage quality in the ADN. 展开更多
关键词 Household electric vehicles deep reinforcement learning proximal policy optimization charging scheduling active distribution network time-of-use price
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部