现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的...现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的多智能体深度确定性策略梯度(guidance signal based multi-agent deep deterministic policy gradient,GS-MADDPG)的电压优化方法。首先,将电动汽车(electric vehicles,EV)集群、分布式电源(distributed generations,DG)和无功调节装置作为决策智能体,构建强化学习优化模型。然后,通过配电网分区,解耦多智能体的外部奖励,并结合模仿学习,利用指导信号引入内部奖励,帮助智能体快速寻优。最后,基于改进IEEE33节点系统进行算例测试。结果表明,所提电压优化策略较传统DRL方法具有更高的样本利用率,实现了更稳定的收敛及更高的模型训练效率,提升了配电网电压的优化效果。展开更多
文摘现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的多智能体深度确定性策略梯度(guidance signal based multi-agent deep deterministic policy gradient,GS-MADDPG)的电压优化方法。首先,将电动汽车(electric vehicles,EV)集群、分布式电源(distributed generations,DG)和无功调节装置作为决策智能体,构建强化学习优化模型。然后,通过配电网分区,解耦多智能体的外部奖励,并结合模仿学习,利用指导信号引入内部奖励,帮助智能体快速寻优。最后,基于改进IEEE33节点系统进行算例测试。结果表明,所提电压优化策略较传统DRL方法具有更高的样本利用率,实现了更稳定的收敛及更高的模型训练效率,提升了配电网电压的优化效果。