期刊文献+
共找到170篇文章
< 1 2 9 >
每页显示 20 50 100
基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法 被引量:8
1
作者 贺俊杰 张洁 +3 位作者 张朋 汪俊亮 郑鹏 王明 《中国机械工程》 EI CAS CSCD 北大核心 2022年第3期329-338,共10页
针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法。通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度。设计了车... 针对等效并行机在线调度问题,以加权完工时间和为目标,提出了一种基于长短期记忆近端策略优化(LSTM-PPO)强化学习的在线调度方法。通过设计融合LSTM的智能体记录车间的历史状态变化和调度策略,进而根据状态信息进行在线调度。设计了车间状态矩阵对问题约束和优化目标进行描述,在调度决策中引入额外的设备等待指令来扩大解空间,并设计奖励函数将优化目标分解为分步奖励值实现调度决策评价。最后基于PPO算法进行模型更新和参数全局优化。实验结果表明所提方法优于现有的几种启发式规则,并将所提算法应用于实际车间的生产调度,有效减小了加权完工时间和。 展开更多
关键词 等效并行机 在线调度 强化学习 长短期记忆近端策略优化
下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法 被引量:1
2
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:3
3
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
下载PDF
基于改进近端策略优化算法的移动机械臂抓取实验设计
4
作者 王永华 钟欣见 李明 《实验技术与管理》 CAS 北大核心 2024年第4期73-80,共8页
针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略... 针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略优化算法的步骤进行了调整,完成了对算法稳定性和学习效率的优化,并针对每个改进点设计了相关的实验。实验结果表明,在训练移动机械臂夹取物体的任务上,6个改进方法对近端策略优化算法均有不同程度的提升。改进后的PPO算法使移动机械臂的奖励曲线获得很大改善,能够迅速收敛到理想的结果。 展开更多
关键词 策略优化 移动机械臂 深度强化学习
下载PDF
基于近端策略优化的智能抗干扰决策算法
5
作者 马松 李黎 +2 位作者 黎伟 黄巍 王军 《通信学报》 EI CSCD 北大核心 2024年第8期249-257,共9页
针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端... 针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端策略优化的智能抗干扰决策算法。分别在飞行器和地面站部署决策神经网络和训练神经网络,地面站根据飞行器反馈的经验信息进行最优化离线训练,辅助决策神经网络进行参数更新,在满足飞行器资源约束的同时实现有效的抗干扰策略选择。仿真结果表明,与基于策略梯度和基于深度Q学习的决策算法相比,所提算法收敛速度提升37%,收敛后的系统容量提升25%。 展开更多
关键词 策略优化 深度强化学习 智能抗干扰 抗干扰决策
下载PDF
基于近端策略优化模板更新的实时目标跟踪方法
6
作者 孙愉亚 龚声蓉 +2 位作者 钟珊 周立凡 范利 《计算机工程与设计》 北大核心 2024年第5期1499-1507,共9页
基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因... 基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因目标外观变化带来的误差积累。针对孪生网络跟踪算法搜索域太小,无法全局搜索目标的问题,引入全局检测算法,找回丢失的目标。所提跟踪算法能够自适应更新模板和全局检测丢失的目标,在OTB数据集和GOT-10k数据集上进行测试,实验结果表明,该方法较代表性方法,具有实时性强和准确率高的优点,能够很好应对目标外观形变以及目标丢失。 展开更多
关键词 目标跟踪 深度强化学习 策略优化 马尔可夫决策过程 全局检测 更新模板 孪生网络
下载PDF
基于近端策略优化的IES经济调度方法研究
7
作者 刘志良 郭玥 +2 位作者 沙树名 刘振 强彦 《太原理工大学学报》 CAS 北大核心 2024年第4期677-685,共9页
【目的】综合能源系统(IES)的经济调度是能源技术改革的重要研究内容,其本质是一个复杂的混合整数非线性规划问题。传统的优化调度方法计算复杂度较高,也无法适应IES中耦合了可再生能源的源荷不确定性。利用深度强化学习方法对原始问题... 【目的】综合能源系统(IES)的经济调度是能源技术改革的重要研究内容,其本质是一个复杂的混合整数非线性规划问题。传统的优化调度方法计算复杂度较高,也无法适应IES中耦合了可再生能源的源荷不确定性。利用深度强化学习方法对原始问题进行分解加速,提升IES经济调度模型的求解效率。【方法】提出了一种基于改进近端策略优化(PPO)算法的IES优化调度框架,利用PPO算法拟合原始模型中非线性约束的部分变量,从而将其转换为线性约束以加速求解。【结果】通过算例验证了该方法的有效性,以及相较于其他方法的高效性。可以预见在大规模的IES优化问题上,该方法计算优势将更加明显。 展开更多
关键词 综合能源系统 经济调度 强化学习 策略优化
下载PDF
一种基于近端策略优化的服务功能链部署算法
8
作者 颜志 禹怀龙 +1 位作者 欧阳博 王耀南 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2869-2878,共10页
针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策... 针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策过程,然后,以最大化服务率和最小化资源消耗为优化目标设置奖励函数,最后,采用近端策略优化方法对服务功能链部署策略求解。仿真实验结果表明,与启发式算法(FFD)和深度确定性策略梯度算法(DDPG)相比,所提算法具有收敛速度快,稳定性高的特点。在满足服务质量的要求下,降低了部署成本,并提高了网络服务可靠性。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 策略优化
下载PDF
基于改进近端策略优化算法的智能渗透路径研究
9
作者 王紫阳 王佳 +1 位作者 熊明亮 王文涛 《计算机科学》 CSCD 北大核心 2024年第S02期851-856,共6页
渗透路径规划是渗透测试的首要步骤,对实现渗透测试的自动化有重大意义。现有渗透路径规划研究多将渗透测试建模为完全可观测的理想过程,难以准确反映部分可观测性的实际渗透测试过程。鉴于强化学习在渗透测试领域的广泛应用,将渗透测... 渗透路径规划是渗透测试的首要步骤,对实现渗透测试的自动化有重大意义。现有渗透路径规划研究多将渗透测试建模为完全可观测的理想过程,难以准确反映部分可观测性的实际渗透测试过程。鉴于强化学习在渗透测试领域的广泛应用,将渗透测试过程建模为部分可观测的马尔可夫决策过程,从而更准确地模拟实际渗透测试过程。在此基础上,针对PPO算法使用全连接层拟合策略函数和价值函数无法提取部分可观测空间有效特征的问题,提出一种改进的PPO算法RPPO,其中策略网络和评估网络均融合全连接层和LSTM网络结构以提升其在未知环境提取特征的能力。同时,给出一种新的目标函数更新方法,以增强算法的鲁棒性和收敛性。实验结果表明,在不同网络场景中,相较于现有A2C,PPO和NDSPI-DQN算法,RPPO算法收敛轮次分别缩短了21.21%,28.64%,22.85%,获得累计奖励分别提升了66.01%,58.61%,132.64%,更适用于超过50台主机的较大规模网络环境。 展开更多
关键词 渗透测试 渗透路径规划 强化学习 策略优化 长短期记忆网络
下载PDF
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
10
作者 娄雨璇 孙闽红 尹帅 《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对... 为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 展开更多
关键词 雷达干扰决策 部分可观察马尔可夫决策过程 强化学习 TRANSFORMER 策略优化
下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取
11
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
下载PDF
基于近端策略优化算法的端到端车道保持算法研究
12
作者 宋建辉 崔永阔 《通信与信息技术》 2024年第3期92-97,共6页
为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车... 为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车道保持算法框架,该框架可以将用于训练的算法策略与模拟器相结合,框架以车前方摄像头的RGB图像、深度图像、无人车的速度、偏离车道线值与碰撞系数等无人车周围环境变量为输入,以车前方摄像头的油门、刹车、方向盘转角等无人车周围环境变量为输出。在Airsim仿真平台下不同的地图中进行训练与测试,并与原算法进行对比实验。实验结果证明改进的LSTM-PPO算法能够训练出有效的车道保持算法,改进后的算法能显著减少训练时间并增加算法的鲁棒性。 展开更多
关键词 自动驾驶 强化学习 策略优化 长短期记忆网络
下载PDF
基于近端策略动态优化的多智能体编队方法
13
作者 全家乐 马先龙 沈昱恒 《空天防御》 2024年第2期52-62,共11页
无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率... 无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率低等问题。本文提出了一种基于改进近端策略优化方法的集群编队方法,通过引入动态估计法作为评价机制,解决了传统近端策略优化方法收敛速度慢和忽视高价值动作问题,有效提升了数据利用率。仿真试验证明,该方法能够提高训练效率,解决样本复用问题,具有良好的决策性能。 展开更多
关键词 无人机集群 深度强化学习 策略优化 逆强化学习 集群决策
下载PDF
基于裁剪优化和策略指导的近端策略优化算法
14
作者 周毅 高华 田永谌 《计算机应用》 CSCD 北大核心 2024年第8期2334-2341,共8页
针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差... 针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。 展开更多
关键词 深度强化学习 策略优化 信任域约束 模拟退火 贪心算法
下载PDF
无人机辅助MEC车辆任务卸载与功率控制近端策略优化算法
15
作者 谭国平 易文雄 +1 位作者 周思源 胡鹤轩 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2361-2371,共11页
无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边... 无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边缘计算架构,考虑无线信道时变特性及车辆高移动性等动态变化特征,构建出基于非正交多址(NOMA)的车载任务卸载与功率控制优化问题模型,然后将该问题建模成马尔可夫决策过程,并提出一种基于近端策略优化(PPO)的分布式深度强化学习算法,使得车辆只需根据自身获取局部信息,自主决策任务卸载量及相关发射功率,从而达到时延与能耗的最佳均衡性能。仿真结果表明,与现有方法相比较,本文所提任务卸载与功率控制近端策略优化方案不仅能够显著获得更优的时延与能耗性能,所提方案平均系统代价性能提升至少13%以上,而且提供一种性能均衡优化方法,能够通过调节用户偏好权重因子,达到系统时延与能耗水平之间的最佳均衡。 展开更多
关键词 无人机辅助计算 移动边缘计算 策略优化 深度强化学习 功率控制和任务卸载
下载PDF
结合注意力机制与好奇心驱动的近端策略优化算法
16
作者 陈至栩 张荣芬 +2 位作者 刘宇红 王子鹏 黄继辉 《计算机应用与软件》 北大核心 2024年第3期258-265,275,共9页
大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动... 大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动的近端策略优化算法,Agent能够通过好奇心驱动探索未知环境,同时结合注意力机制的理性好奇心能够有效控制Agent因有害好奇心导致的异常探索,使近端策略优化算法保持较快速度和更稳定的状态进行策略更新。实验结果表明该方法下Agent有更好的性能,能取得更高的平均奖励回报。 展开更多
关键词 深度强化学习 注意力机制 策略优化 好奇心机制
下载PDF
基于改进近端策略优化算法控制的应急无人机飞行控制系统研究
17
作者 王进月 尹存珍 +1 位作者 佀庆民 付帅 《科学技术创新》 2024年第14期27-30,共4页
为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准... 为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准确率均大于90%,最高准确率为92%,而k-NN算法的准确率在不同迭代次数上存在一定波动,最高准确率为90%,最低准确率仅为80%。且改进PPO算法和PPO算法的总计算时间成本基本相同,均为1 932.4 s,但改进PPO算法在训练过程中能使损失值收敛得更快。 展开更多
关键词 策略优化算法 维度裁剪技术 准确率 控制性能
下载PDF
基于改进灰狼算法优化长短期记忆网络的光伏功率预测 被引量:15
18
作者 薛阳 燕宇铖 +3 位作者 贾巍 衡雨曦 张舒翔 秦瑶 《太阳能学报》 EI CAS CSCD 北大核心 2023年第7期207-213,共7页
为提高光伏发电功率预测的准确性,提出一种基于改进自适应因子与精英反向学习策略的改进灰狼算法(IGWO),用以优化长短期记忆网络(LSTM)预测模型。利用IGWO优化LSTM全连接层参数,建立IGWO-LSTM组合模型预测光伏功率,具有较好的收敛速度... 为提高光伏发电功率预测的准确性,提出一种基于改进自适应因子与精英反向学习策略的改进灰狼算法(IGWO),用以优化长短期记忆网络(LSTM)预测模型。利用IGWO优化LSTM全连接层参数,建立IGWO-LSTM组合模型预测光伏功率,具有较好的收敛速度与求解效率,也可有效避免局部最优解。最后基于常州某光伏发电站实时数据进行仿真,实验结果表明IGWO-LSTM相对于LSTM光伏功率预测更具准确性。 展开更多
关键词 光伏发电 长短期记忆网络 优化算法 灰狼算法 精英反向学习策略
下载PDF
基于深度强化学习近端策略优化的电网无功优化方法 被引量:12
19
作者 张沛 朱驻军 谢桦 《电网技术》 EI CSCD 北大核心 2023年第2期562-570,共9页
新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IE... 新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IEEE39系统开展案例分析,结果表明所提的奖励函数能提高智能体收敛速度,基于强化学习求解的无功优化策略在决策效果和决策时间上优于传统确定性优化算法。 展开更多
关键词 无功优化 新型电力系统 深度强化学习 策略优化 数据驱动
下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:7
20
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合策略优化 智能体设计
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部