期刊文献+
共找到163篇文章
< 1 2 9 >
每页显示 20 50 100
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:2
1
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法
2
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
下载PDF
基于改进近端策略优化算法的移动机械臂抓取实验设计
3
作者 王永华 钟欣见 李明 《实验技术与管理》 CAS 北大核心 2024年第4期73-80,共8页
针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略... 针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略优化算法的步骤进行了调整,完成了对算法稳定性和学习效率的优化,并针对每个改进点设计了相关的实验。实验结果表明,在训练移动机械臂夹取物体的任务上,6个改进方法对近端策略优化算法均有不同程度的提升。改进后的PPO算法使移动机械臂的奖励曲线获得很大改善,能够迅速收敛到理想的结果。 展开更多
关键词 策略优化 移动机械臂 深度强化学习
下载PDF
基于近端策略优化的智能抗干扰决策算法
4
作者 马松 李黎 +2 位作者 黎伟 黄巍 王军 《通信学报》 EI CSCD 北大核心 2024年第8期249-257,共9页
针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端... 针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端策略优化的智能抗干扰决策算法。分别在飞行器和地面站部署决策神经网络和训练神经网络,地面站根据飞行器反馈的经验信息进行最优化离线训练,辅助决策神经网络进行参数更新,在满足飞行器资源约束的同时实现有效的抗干扰策略选择。仿真结果表明,与基于策略梯度和基于深度Q学习的决策算法相比,所提算法收敛速度提升37%,收敛后的系统容量提升25%。 展开更多
关键词 策略优化 深度强化学习 智能抗干扰 抗干扰决策
下载PDF
一种基于近端策略优化的服务功能链部署算法
5
作者 颜志 禹怀龙 +1 位作者 欧阳博 王耀南 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2869-2878,共10页
针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策... 针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策过程,然后,以最大化服务率和最小化资源消耗为优化目标设置奖励函数,最后,采用近端策略优化方法对服务功能链部署策略求解。仿真实验结果表明,与启发式算法(FFD)和深度确定性策略梯度算法(DDPG)相比,所提算法具有收敛速度快,稳定性高的特点。在满足服务质量的要求下,降低了部署成本,并提高了网络服务可靠性。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 策略优化
下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取
6
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
下载PDF
基于裁剪优化和策略指导的近端策略优化算法
7
作者 周毅 高华 田永谌 《计算机应用》 CSCD 北大核心 2024年第8期2334-2341,共8页
针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差... 针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。 展开更多
关键词 深度强化学习 策略优化 信任域约束 模拟退火 贪心算法
下载PDF
基于近端策略优化算法的端到端车道保持算法研究
8
作者 宋建辉 崔永阔 《通信与信息技术》 2024年第3期92-97,共6页
为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车... 为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车道保持算法框架,该框架可以将用于训练的算法策略与模拟器相结合,框架以车前方摄像头的RGB图像、深度图像、无人车的速度、偏离车道线值与碰撞系数等无人车周围环境变量为输入,以车前方摄像头的油门、刹车、方向盘转角等无人车周围环境变量为输出。在Airsim仿真平台下不同的地图中进行训练与测试,并与原算法进行对比实验。实验结果证明改进的LSTM-PPO算法能够训练出有效的车道保持算法,改进后的算法能显著减少训练时间并增加算法的鲁棒性。 展开更多
关键词 自动驾驶 强化学习 策略优化 长短期记忆网络
下载PDF
无人机辅助MEC车辆任务卸载与功率控制近端策略优化算法
9
作者 谭国平 易文雄 +1 位作者 周思源 胡鹤轩 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2361-2371,共11页
无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边... 无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边缘计算架构,考虑无线信道时变特性及车辆高移动性等动态变化特征,构建出基于非正交多址(NOMA)的车载任务卸载与功率控制优化问题模型,然后将该问题建模成马尔可夫决策过程,并提出一种基于近端策略优化(PPO)的分布式深度强化学习算法,使得车辆只需根据自身获取局部信息,自主决策任务卸载量及相关发射功率,从而达到时延与能耗的最佳均衡性能。仿真结果表明,与现有方法相比较,本文所提任务卸载与功率控制近端策略优化方案不仅能够显著获得更优的时延与能耗性能,所提方案平均系统代价性能提升至少13%以上,而且提供一种性能均衡优化方法,能够通过调节用户偏好权重因子,达到系统时延与能耗水平之间的最佳均衡。 展开更多
关键词 无人机辅助计算 移动边缘计算 策略优化 深度强化学习 功率控制和任务卸载
下载PDF
结合注意力机制与好奇心驱动的近端策略优化算法
10
作者 陈至栩 张荣芬 +2 位作者 刘宇红 王子鹏 黄继辉 《计算机应用与软件》 北大核心 2024年第3期258-265,275,共9页
大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动... 大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动的近端策略优化算法,Agent能够通过好奇心驱动探索未知环境,同时结合注意力机制的理性好奇心能够有效控制Agent因有害好奇心导致的异常探索,使近端策略优化算法保持较快速度和更稳定的状态进行策略更新。实验结果表明该方法下Agent有更好的性能,能取得更高的平均奖励回报。 展开更多
关键词 深度强化学习 注意力机制 策略优化 好奇心机制
下载PDF
基于改进近端策略优化算法控制的应急无人机飞行控制系统研究
11
作者 王进月 尹存珍 +1 位作者 佀庆民 付帅 《科学技术创新》 2024年第14期27-30,共4页
为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准... 为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准确率均大于90%,最高准确率为92%,而k-NN算法的准确率在不同迭代次数上存在一定波动,最高准确率为90%,最低准确率仅为80%。且改进PPO算法和PPO算法的总计算时间成本基本相同,均为1 932.4 s,但改进PPO算法在训练过程中能使损失值收敛得更快。 展开更多
关键词 策略优化算法 维度裁剪技术 准确率 控制性能
下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略
12
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 策略优化算法
下载PDF
基于近端策略优化模板更新的实时目标跟踪方法
13
作者 孙愉亚 龚声蓉 +2 位作者 钟珊 周立凡 范利 《计算机工程与设计》 北大核心 2024年第5期1499-1507,共9页
基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因... 基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因目标外观变化带来的误差积累。针对孪生网络跟踪算法搜索域太小,无法全局搜索目标的问题,引入全局检测算法,找回丢失的目标。所提跟踪算法能够自适应更新模板和全局检测丢失的目标,在OTB数据集和GOT-10k数据集上进行测试,实验结果表明,该方法较代表性方法,具有实时性强和准确率高的优点,能够很好应对目标外观形变以及目标丢失。 展开更多
关键词 目标跟踪 深度强化学习 策略优化 马尔可夫决策过程 全局检测 更新模板 孪生网络
下载PDF
基于近端策略优化的IES经济调度方法研究
14
作者 刘志良 郭玥 +2 位作者 沙树名 刘振 强彦 《太原理工大学学报》 CAS 北大核心 2024年第4期677-685,共9页
【目的】综合能源系统(IES)的经济调度是能源技术改革的重要研究内容,其本质是一个复杂的混合整数非线性规划问题。传统的优化调度方法计算复杂度较高,也无法适应IES中耦合了可再生能源的源荷不确定性。利用深度强化学习方法对原始问题... 【目的】综合能源系统(IES)的经济调度是能源技术改革的重要研究内容,其本质是一个复杂的混合整数非线性规划问题。传统的优化调度方法计算复杂度较高,也无法适应IES中耦合了可再生能源的源荷不确定性。利用深度强化学习方法对原始问题进行分解加速,提升IES经济调度模型的求解效率。【方法】提出了一种基于改进近端策略优化(PPO)算法的IES优化调度框架,利用PPO算法拟合原始模型中非线性约束的部分变量,从而将其转换为线性约束以加速求解。【结果】通过算例验证了该方法的有效性,以及相较于其他方法的高效性。可以预见在大规模的IES优化问题上,该方法计算优势将更加明显。 展开更多
关键词 综合能源系统 经济调度 强化学习 策略优化
下载PDF
一种改进的近端策略优化算法
15
作者 费正顺 王焰平 +2 位作者 龚海波 项新建 郭峻豪 《浙江科技学院学报》 CAS 2023年第1期23-29,共7页
近端策略优化(proximal policy optimization, PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够... 近端策略优化(proximal policy optimization, PPO)是从一个已知的分布附近来采样估计另一个分布,通过用新策略在老策略的附近学习来实现优化的,其中老策略作为新策略的近似分布。【目的】针对PPO算法在强化学习中学习效率及收敛性不够好的问题,提出一种改进的PPO算法。【方法】首先提出一种新损失函数来更新PPO算法中的网络参数,采用泛化优势估计(generalized dominance estimation, GAE)对优势函数进行描述;然后采用类似异步优势演员-评论家(asynchronous actor-critic, A3C)算法中的多线程策略来训练智能体;最后设计新的参数更新方式来实现对主副两种网络中的参数更新。【结果】本方法能够使智能体更快地完成学习训练,其训练过程中收敛性更好;由于多线程,其算法的训练速度会比常规的PPO算法至少快5倍。【结论】改进的PPO算法其性能更好,这为后续强化学习算法的研究提供了新思路。 展开更多
关键词 强化学习 策略优化 泛化优势估计 多线程
下载PDF
基于近端策略动态优化的多智能体编队方法
16
作者 全家乐 马先龙 沈昱恒 《空天防御》 2024年第2期52-62,共11页
无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率... 无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率低等问题。本文提出了一种基于改进近端策略优化方法的集群编队方法,通过引入动态估计法作为评价机制,解决了传统近端策略优化方法收敛速度慢和忽视高价值动作问题,有效提升了数据利用率。仿真试验证明,该方法能够提高训练效率,解决样本复用问题,具有良好的决策性能。 展开更多
关键词 无人机集群 深度强化学习 策略优化 逆强化学习 集群决策
下载PDF
基于相关熵诱导度量的近端策略优化算法
17
作者 张会珍 王强 《吉林大学学报(信息科学版)》 CAS 2023年第3期437-443,共7页
在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的... 在深度强化学习算法中,近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(Correntropy Induced Metric-PPO)。该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响。通过OpenAI gym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有500~1 100回合左右的加快,同时也具有良好的鲁棒性。 展开更多
关键词 KL散度 策略优化(ppo) 相关熵诱导度量(CIM) 替代目标 深度强化学习
下载PDF
一类分式优化问题的带非单调线搜索的近端梯度次梯度算法研究
18
作者 张景 《应用数学进展》 2024年第3期1129-1139,共11页
本文主要研究一类分式优化问题,其中分子是凸非光滑连续函数与非凸光滑函数的和,分母为凸 非光滑函数。 首先给出了问题的一阶最优性条件,然后给出了求解分式优化问题的新算法,即带 非单调线搜索的近端梯度次梯度算法(简称NL-PGSA)。此... 本文主要研究一类分式优化问题,其中分子是凸非光滑连续函数与非凸光滑函数的和,分母为凸 非光滑函数。 首先给出了问题的一阶最优性条件,然后给出了求解分式优化问题的新算法,即带 非单调线搜索的近端梯度次梯度算法(简称NL-PGSA)。此外,基于Kurdyka-L- ojasiewicz性质, 可以保证算法生成的整个序列的全局收敛性,最后,对l1/l2稀疏信号恢复问题进行了数值实验,验 证了该算法的有效性。 展开更多
关键词 分式优化 梯度次梯度算法 收敛性分析
下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:9
19
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 策略优化算法 新能源
下载PDF
基于PPO算法的CIES低碳优化调度方法
20
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部