阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优...阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。展开更多
文摘针对四旋翼无人机的悬停控制及轨迹跟踪问题,利用近端策略优化算法来控制四旋翼飞行器,通过强化学习训练神经网络,将状态直接映射到四个旋翼,是一种用于在未知动态参数和干扰下控制任何线性或非线性系统的技术。基于回报塑形技术(The reward shaping of RL),提出了一种新颖的奖励函数,相比传统的PID算法,可以使无人机飞行更迅速且平稳。实验表明,四旋翼无人机可以以高精度高平稳的性能从三维中的定点悬停及轨迹跟踪,精度高达97.2%;文中的位置控制器具有泛化性和鲁棒性。