近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向...近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向IES能量优化调度的生成对抗模仿学习方法。首先,IES智能体通过模仿具备高奖励回馈的专家调度策略自适应学习动作探索过程,避免盲目探索造成的时间与算力浪费。其次,基于生成对抗理论,增设判别器网络辨别生成策略与专家策略之间的差异,以此作为内部奖励函数辅助神经网络参数更新,避免人工设置奖励的主观偏好和经验限制对IES调度结果的影响。最后,电-热耦合系统算例分析结果表明:训练过程中所提方法的收敛速度较传统深度强化学习算法提升了52%,收敛效果提升了10%,同时使IES智能体获得了接近专家调度经验的决策能力;在线应用时无需依赖对外界环境的准确预测和精确建模,即可实现快速实时决策。展开更多
文摘近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向IES能量优化调度的生成对抗模仿学习方法。首先,IES智能体通过模仿具备高奖励回馈的专家调度策略自适应学习动作探索过程,避免盲目探索造成的时间与算力浪费。其次,基于生成对抗理论,增设判别器网络辨别生成策略与专家策略之间的差异,以此作为内部奖励函数辅助神经网络参数更新,避免人工设置奖励的主观偏好和经验限制对IES调度结果的影响。最后,电-热耦合系统算例分析结果表明:训练过程中所提方法的收敛速度较传统深度强化学习算法提升了52%,收敛效果提升了10%,同时使IES智能体获得了接近专家调度经验的决策能力;在线应用时无需依赖对外界环境的准确预测和精确建模,即可实现快速实时决策。