行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized...行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.展开更多
基于静止同步串联补偿器(static synchronous series compensator,SSSC)建立了可用输电能力计算的最优潮流模型,并在模型中引入了SSSC的功率注入模型进行优化,采用原-对偶内点法对优化后的模型进行求解,根据特征结构分析法确定SSSC的最...基于静止同步串联补偿器(static synchronous series compensator,SSSC)建立了可用输电能力计算的最优潮流模型,并在模型中引入了SSSC的功率注入模型进行优化,采用原-对偶内点法对优化后的模型进行求解,根据特征结构分析法确定SSSC的最佳安装位置。利用IEEE30节点系统进行仿真分析,结果验证了该方法的有效性,说明在电力系统的薄弱线路上配置SSSC,可以有效地提高系统的可用输电能力。展开更多
为提高综合能源系统自动发电控制(Automatic Generation Control,AGC)的控制性能和算法收敛速度,本文提出了一种基于多智能体迁移柔性行动器-批判器与长短时记忆网络(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memo...为提高综合能源系统自动发电控制(Automatic Generation Control,AGC)的控制性能和算法收敛速度,本文提出了一种基于多智能体迁移柔性行动器-批判器与长短时记忆网络(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory,MATSAC-LSTM)的AGC控制法。首先,用LSTM网络将采集的区域控制误差等环境状态量进行时序特征提取,并作为MATSAC算法的输入,使智能体能结合历史信息进行快速的有功功率分配决策;其次,采用集中训练分散执行框架,将一个智能体观察的环境状态量以及其他智能体的动作信息作为相应智能体Critic网络的输入,以便训练时能够让多智能体之间共享信息;最后,通过迁移学习将旧任务训练的Critic和Actor网络模型参数转移到新任务相应模型参数中,以提高智能体的训练效率。算例分析在一个修改的IEEE标准两区域负荷频率控制系统模型和一个五区域综合能源系统模型展开,仿真结果表明,与比例积分微分、Q学习、双延迟深度确定性策略梯度、基于动态策略的赢或快速学习爬坡策略、柔性行动器-批判器等传统算法相比,本文所提MATSAC-LSTM算法提高了AGC控制性能标准和算法收敛速度,降低了系统的区域控制误差和频率偏差。展开更多
文摘行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性.
文摘基于静止同步串联补偿器(static synchronous series compensator,SSSC)建立了可用输电能力计算的最优潮流模型,并在模型中引入了SSSC的功率注入模型进行优化,采用原-对偶内点法对优化后的模型进行求解,根据特征结构分析法确定SSSC的最佳安装位置。利用IEEE30节点系统进行仿真分析,结果验证了该方法的有效性,说明在电力系统的薄弱线路上配置SSSC,可以有效地提高系统的可用输电能力。
文摘为提高综合能源系统自动发电控制(Automatic Generation Control,AGC)的控制性能和算法收敛速度,本文提出了一种基于多智能体迁移柔性行动器-批判器与长短时记忆网络(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory,MATSAC-LSTM)的AGC控制法。首先,用LSTM网络将采集的区域控制误差等环境状态量进行时序特征提取,并作为MATSAC算法的输入,使智能体能结合历史信息进行快速的有功功率分配决策;其次,采用集中训练分散执行框架,将一个智能体观察的环境状态量以及其他智能体的动作信息作为相应智能体Critic网络的输入,以便训练时能够让多智能体之间共享信息;最后,通过迁移学习将旧任务训练的Critic和Actor网络模型参数转移到新任务相应模型参数中,以提高智能体的训练效率。算例分析在一个修改的IEEE标准两区域负荷频率控制系统模型和一个五区域综合能源系统模型展开,仿真结果表明,与比例积分微分、Q学习、双延迟深度确定性策略梯度、基于动态策略的赢或快速学习爬坡策略、柔性行动器-批判器等传统算法相比,本文所提MATSAC-LSTM算法提高了AGC控制性能标准和算法收敛速度,降低了系统的区域控制误差和频率偏差。