期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度强化学习的分布式能源系统运行优化
被引量:
9
1
作者
阮应君
侯泽群
+1 位作者
钱凡悦
孟华
《科学技术与工程》
北大核心
2022年第17期7021-7030,共10页
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优...
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模;其次,深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(distributed proximal policy optimization,DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP);最后,采用历史的数据对智能体进行训练,训练完成的模型可以实现对分布式能源系统的实时优化,并对比了深度Q网络(deep Q network,DQN)算法和LINGO获得的调度策略。结果表明,基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。
展开更多
关键词
深度强化学习
分布式近端策略优化
分布式
能源系统
运行
优化
下载PDF
职称材料
稀疏奖励下基于课程学习的无人机空战仿真
2
作者
祝靖宇
张宏立
+4 位作者
匡敏驰
史恒
朱纪洪
乔直
周文卿
《系统仿真学报》
CAS
CSCD
北大核心
2024年第6期1452-1467,共16页
针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计...
针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计了离散化的动作空间,构建了局部观测与全局观测分离的演员评论家网络。通过为无人机制定进攻、防御以及综合课程,让无人机从基本课程由浅入深开始学习作战技能,阶段性提升无人机作战能力。实验结果表明:以课程学习方式训练的无人机能以一定的优势击败专家系统和主流强化学习算法,同时具有空战战术的自我学习能力,有效改善稀疏奖励的问题。
展开更多
关键词
UAVS
空战
稀疏奖励
课程学习
分布式近端策略优化
下载PDF
职称材料
题名
基于深度强化学习的分布式能源系统运行优化
被引量:
9
1
作者
阮应君
侯泽群
钱凡悦
孟华
机构
同济大学机械与能源工程学院
出处
《科学技术与工程》
北大核心
2022年第17期7021-7030,共10页
基金
国家自然科学基金(51978482)。
文摘
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模;其次,深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(distributed proximal policy optimization,DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP);最后,采用历史的数据对智能体进行训练,训练完成的模型可以实现对分布式能源系统的实时优化,并对比了深度Q网络(deep Q network,DQN)算法和LINGO获得的调度策略。结果表明,基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。
关键词
深度强化学习
分布式近端策略优化
分布式
能源系统
运行
优化
Keywords
deep reinforcement learning
distributed proximal policy optimization
distributed energy system
operation optimization
分类号
TM732 [电气工程—电力系统及自动化]
下载PDF
职称材料
题名
稀疏奖励下基于课程学习的无人机空战仿真
2
作者
祝靖宇
张宏立
匡敏驰
史恒
朱纪洪
乔直
周文卿
机构
新疆大学电气工程学院
清华大学精密仪器系
清华大学计算机科学技术系
出处
《系统仿真学报》
CAS
CSCD
北大核心
2024年第6期1452-1467,共16页
文摘
针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计了离散化的动作空间,构建了局部观测与全局观测分离的演员评论家网络。通过为无人机制定进攻、防御以及综合课程,让无人机从基本课程由浅入深开始学习作战技能,阶段性提升无人机作战能力。实验结果表明:以课程学习方式训练的无人机能以一定的优势击败专家系统和主流强化学习算法,同时具有空战战术的自我学习能力,有效改善稀疏奖励的问题。
关键词
UAVS
空战
稀疏奖励
课程学习
分布式近端策略优化
Keywords
UAVs
air combat
sparse reward
curriculum learning
distributed proximal policy optimization(DPPO)
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度强化学习的分布式能源系统运行优化
阮应君
侯泽群
钱凡悦
孟华
《科学技术与工程》
北大核心
2022
9
下载PDF
职称材料
2
稀疏奖励下基于课程学习的无人机空战仿真
祝靖宇
张宏立
匡敏驰
史恒
朱纪洪
乔直
周文卿
《系统仿真学报》
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部