期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于相关熵诱导度量的近端策略优化算法
1
作者 张会珍 王强 《吉林大学学报(信息科学版)》 CAS 2023年第3期437-443,共7页
在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的... 在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(Correntropy Induced Metric-PPO)。该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过OpenAI gym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有500~1 100回合左右的加快,同时也具有良好的鲁棒性。 展开更多
关键词 KL散度 近端策略优化(PPO) 相关熵诱导度量(CIM) 替代目标 深度强化学习
下载PDF
大规模水电系统短期调峰电量最大模型及其求解 被引量:38
2
作者 王金文 范习辉 +2 位作者 张勇传 张世钦 乐玉华 《电力系统自动化》 EI CSCD 北大核心 2003年第15期29-34,共6页
针对国内短期水电系统发电调度中较常用的调峰电量最大目标函数 ,给出了一种替代目标函数的基本形式 ,并对其合理性进行了理论探讨。设计了周期性模型 ,用于确定各水库的滞时区出库流量和调节性能较差水库的控制期末水位。采用改进的直... 针对国内短期水电系统发电调度中较常用的调峰电量最大目标函数 ,给出了一种替代目标函数的基本形式 ,并对其合理性进行了理论探讨。设计了周期性模型 ,用于确定各水库的滞时区出库流量和调节性能较差水库的控制期末水位。采用改进的直接搜索法求解考虑水流滞时情况下的短期水电站群发电优化调度问题。设计了一个尽可能避免弃水的局部修正策略 ,考虑了电站出力波动、开停机持续时间、开停机次数、出力运行区域、系统容量备用等约束。结合福建水电系统的实际情况 。 展开更多
关键词 水力发电 优化调度 短期调峰调度 周期性模型 替代目标函数 中心向量
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部