-
题名基于相关熵诱导度量的近端策略优化算法
- 1
-
-
作者
张会珍
王强
-
机构
东北石油大学电气信息工程学院
-
出处
《吉林大学学报(信息科学版)》
CAS
2023年第3期437-443,共7页
-
基金
黑龙江省自然科学基金资助项目(F2018004)。
-
文摘
在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(Correntropy Induced Metric-PPO)。该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过OpenAI gym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有500~1 100回合左右的加快,同时也具有良好的鲁棒性。
-
关键词
KL散度
近端策略优化(PPO)
相关熵诱导度量(CIM)
替代目标
深度强化学习
-
Keywords
kullback-leibler(KL)divergence
proximal policy optimization(PPO)
correntropy induced metric(CIM)
alternative target
deep reinforcement learning
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名大规模水电系统短期调峰电量最大模型及其求解
被引量:38
- 2
-
-
作者
王金文
范习辉
张勇传
张世钦
乐玉华
-
机构
华中科技大学水电与数字化工程学院
福建电力调度通信中心
-
出处
《电力系统自动化》
EI
CSCD
北大核心
2003年第15期29-34,共6页
-
文摘
针对国内短期水电系统发电调度中较常用的调峰电量最大目标函数 ,给出了一种替代目标函数的基本形式 ,并对其合理性进行了理论探讨。设计了周期性模型 ,用于确定各水库的滞时区出库流量和调节性能较差水库的控制期末水位。采用改进的直接搜索法求解考虑水流滞时情况下的短期水电站群发电优化调度问题。设计了一个尽可能避免弃水的局部修正策略 ,考虑了电站出力波动、开停机持续时间、开停机次数、出力运行区域、系统容量备用等约束。结合福建水电系统的实际情况 。
-
关键词
水力发电
优化调度
短期调峰调度
周期性模型
替代目标函数
中心向量
-
Keywords
Mathematical models
Optimization
Scheduling
-
分类号
TV734
[水利工程—水利水电工程]
-