期刊文献+
共找到197篇文章
< 1 2 10 >
每页显示 20 50 100
用水系统的近优化运行及其操作窗口获取方法
1
作者 刘永忠 王乐 +1 位作者 董伟 闫哲 《化工学报》 EI CAS CSCD 北大核心 2011年第1期132-136,共5页
针对用水系统优化设计和操作的可靠性问题,本文以用水过程进出口浓度为噪声因子、以近优化用水目标为控制因子,提出了用水系统近优化设计和操作的操作窗口分析方法及其实现步骤;建立了用水系统近优化操作参数获取的数学模型和搜索策略,... 针对用水系统优化设计和操作的可靠性问题,本文以用水过程进出口浓度为噪声因子、以近优化用水目标为控制因子,提出了用水系统近优化设计和操作的操作窗口分析方法及其实现步骤;建立了用水系统近优化操作参数获取的数学模型和搜索策略,并通过计算实例阐明了所提出方法的可行性。本文提出的分析方法为用水系统的近优化设计和操作可靠性的分析提供了理论分析基础。 展开更多
关键词 用水系统 近优化 操作窗口 可靠性
下载PDF
基于渐近优化检测器的数字水印最佳检测阈值的确定 被引量:1
2
作者 高琨 刘晓云 《计算机应用》 CSCD 北大核心 2008年第4期921-923,926,共4页
数字水印系统中检测阈值的大小会影响到检测器的检测效果。渐近优化检测器是一种采用Rao检验方式的盲水印检测算法,但其检测阈值是完全凭经验人为设定的,为了使渐近优化检测器阈值的确定客观与精确,利用最小差错概率准则对检测阈值进行... 数字水印系统中检测阈值的大小会影响到检测器的检测效果。渐近优化检测器是一种采用Rao检验方式的盲水印检测算法,但其检测阈值是完全凭经验人为设定的,为了使渐近优化检测器阈值的确定客观与精确,利用最小差错概率准则对检测阈值进行了理论分析,并具体给出了一个水印检测系统错误率达到最小的最佳检测阈值的计算公式。实验结果表明,该方法能使水印检测系统的错误率在理论上达到最小,同时检测阈值的大小具有自适应性和客观性。 展开更多
关键词 最小错误概率准则 最佳检测阈值 自适应 近优化检测
下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:2
3
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 端策略优化算法
下载PDF
基于改进近端策略优化算法的移动机械臂抓取实验设计
4
作者 王永华 钟欣见 李明 《实验技术与管理》 CAS 北大核心 2024年第4期73-80,共8页
针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略... 针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略优化算法的步骤进行了调整,完成了对算法稳定性和学习效率的优化,并针对每个改进点设计了相关的实验。实验结果表明,在训练移动机械臂夹取物体的任务上,6个改进方法对近端策略优化算法均有不同程度的提升。改进后的PPO算法使移动机械臂的奖励曲线获得很大改善,能够迅速收敛到理想的结果。 展开更多
关键词 端策略优化 移动机械臂 深度强化学习
下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法
5
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 端策略优化算法 能量管理
下载PDF
基于近端策略优化的智能抗干扰决策算法
6
作者 马松 李黎 +2 位作者 黎伟 黄巍 王军 《通信学报》 EI CSCD 北大核心 2024年第8期249-257,共9页
针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端... 针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端策略优化的智能抗干扰决策算法。分别在飞行器和地面站部署决策神经网络和训练神经网络,地面站根据飞行器反馈的经验信息进行最优化离线训练,辅助决策神经网络进行参数更新,在满足飞行器资源约束的同时实现有效的抗干扰策略选择。仿真结果表明,与基于策略梯度和基于深度Q学习的决策算法相比,所提算法收敛速度提升37%,收敛后的系统容量提升25%。 展开更多
关键词 端策略优化 深度强化学习 智能抗干扰 抗干扰决策
下载PDF
基于近端策略优化的IES经济调度方法研究
7
作者 刘志良 郭玥 +2 位作者 沙树名 刘振 强彦 《太原理工大学学报》 CAS 北大核心 2024年第4期677-685,共9页
【目的】综合能源系统(IES)的经济调度是能源技术改革的重要研究内容,其本质是一个复杂的混合整数非线性规划问题。传统的优化调度方法计算复杂度较高,也无法适应IES中耦合了可再生能源的源荷不确定性。利用深度强化学习方法对原始问题... 【目的】综合能源系统(IES)的经济调度是能源技术改革的重要研究内容,其本质是一个复杂的混合整数非线性规划问题。传统的优化调度方法计算复杂度较高,也无法适应IES中耦合了可再生能源的源荷不确定性。利用深度强化学习方法对原始问题进行分解加速,提升IES经济调度模型的求解效率。【方法】提出了一种基于改进近端策略优化(PPO)算法的IES优化调度框架,利用PPO算法拟合原始模型中非线性约束的部分变量,从而将其转换为线性约束以加速求解。【结果】通过算例验证了该方法的有效性,以及相较于其他方法的高效性。可以预见在大规模的IES优化问题上,该方法计算优势将更加明显。 展开更多
关键词 综合能源系统 经济调度 强化学习 端策略优化
下载PDF
一种基于近端策略优化的服务功能链部署算法
8
作者 颜志 禹怀龙 +1 位作者 欧阳博 王耀南 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2869-2878,共10页
针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策... 针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策过程,然后,以最大化服务率和最小化资源消耗为优化目标设置奖励函数,最后,采用近端策略优化方法对服务功能链部署策略求解。仿真实验结果表明,与启发式算法(FFD)和深度确定性策略梯度算法(DDPG)相比,所提算法具有收敛速度快,稳定性高的特点。在满足服务质量的要求下,降低了部署成本,并提高了网络服务可靠性。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 端策略优化
下载PDF
基于近端策略优化模板更新的实时目标跟踪方法
9
作者 孙愉亚 龚声蓉 +2 位作者 钟珊 周立凡 范利 《计算机工程与设计》 北大核心 2024年第5期1499-1507,共9页
基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因... 基于孪生网络的目标跟踪算法往往采用第一帧的外观特征作为固定模板,难以应对目标外观剧烈变化等问题。为此,所提算法在孪生网络的基础上,引入深度强化学习,将模板更新问题建模为马尔可夫决策过程,采用近端策略优化算法进行优化,减少因目标外观变化带来的误差积累。针对孪生网络跟踪算法搜索域太小,无法全局搜索目标的问题,引入全局检测算法,找回丢失的目标。所提跟踪算法能够自适应更新模板和全局检测丢失的目标,在OTB数据集和GOT-10k数据集上进行测试,实验结果表明,该方法较代表性方法,具有实时性强和准确率高的优点,能够很好应对目标外观形变以及目标丢失。 展开更多
关键词 目标跟踪 深度强化学习 端策略优化 马尔可夫决策过程 全局检测 更新模板 孪生网络
下载PDF
基于多智能体近端策略优化的多信道动态频谱接入
10
作者 陈平平 张旭 +2 位作者 谢肇鹏 丘毓萍 方毅 《电子学报》 EI CAS CSCD 北大核心 2024年第6期1824-1831,共8页
为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单... 为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单信道接入在多个信道同时空闲时存在的频谱浪费问题,使用多信道接入作为解决方案.同时,多信道接入导致状态空间与动作空间指数增长,计算成本高,学习难度大.为此本文引入MAPPO深度强化学习(Deep Reinforcement Learning,DRL)算法,在复杂环境中高效学习和优化接入策略.通过设计优化MAPPO中观测及奖励等强化学习要素和共享网络参数来保证用户公平.最后,在不同场景下的实验结果表明,所提出的MAPPO-DSA能够学习到近似最优的接入策略,部分场景中的网络吞吐量逼近理论上限,显著优于现有算法,且有效保证用户公平. 展开更多
关键词 动态频谱接入 深度强化学习 多智能体优化 多信道接入
下载PDF
球囊近端优化技术在冠状动脉分叉病变介入治疗中的应用进展
11
作者 刘浩 李栋栋 +4 位作者 高春城 戴慧苗 马文帅 郭万刚 李飞 《心脏杂志》 CAS 2024年第3期329-332,共4页
球囊近端优化技术通过扩张冠状动脉分叉病变分叉嵴近段支架使支架形态更加贴合原血管解剖结构,从而显著改善了支架形态和贴壁,增加了临床获益。但是在临床实践中,该术式对术者有着非常高的技术要求,球囊的选择和定位不当均可导致手术失... 球囊近端优化技术通过扩张冠状动脉分叉病变分叉嵴近段支架使支架形态更加贴合原血管解剖结构,从而显著改善了支架形态和贴壁,增加了临床获益。但是在临床实践中,该术式对术者有着非常高的技术要求,球囊的选择和定位不当均可导致手术失败和远期不良事件的发生。其次在实践中不断演化出基于该技术的多种联合术式,如rePOT技术、POKI技术和PBED技术等。因目前针对这些技术的大型临床研究较少,其在冠状动脉分叉病变的介入治疗中还存在诸多争议。本文通过系统回顾球囊近端优化技术的相关文献,并结合我们的临床经验做综述如下。 展开更多
关键词 冠状动脉 分叉病变 介入治疗 优化技术
下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取
12
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 端策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
下载PDF
基于近端策略优化算法的端到端车道保持算法研究
13
作者 宋建辉 崔永阔 《通信与信息技术》 2024年第3期92-97,共6页
为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车... 为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车道保持算法框架,该框架可以将用于训练的算法策略与模拟器相结合,框架以车前方摄像头的RGB图像、深度图像、无人车的速度、偏离车道线值与碰撞系数等无人车周围环境变量为输入,以车前方摄像头的油门、刹车、方向盘转角等无人车周围环境变量为输出。在Airsim仿真平台下不同的地图中进行训练与测试,并与原算法进行对比实验。实验结果证明改进的LSTM-PPO算法能够训练出有效的车道保持算法,改进后的算法能显著减少训练时间并增加算法的鲁棒性。 展开更多
关键词 自动驾驶 强化学习 端策略优化 长短期记忆网络
下载PDF
基于裁剪优化和策略指导的近端策略优化算法
14
作者 周毅 高华 田永谌 《计算机应用》 CSCD 北大核心 2024年第8期2334-2341,共8页
针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差... 针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。 展开更多
关键词 深度强化学习 端策略优化 信任域约束 模拟退火 贪心算法
下载PDF
基于近端策略动态优化的多智能体编队方法
15
作者 全家乐 马先龙 沈昱恒 《空天防御》 2024年第2期52-62,共11页
无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率... 无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率低等问题。本文提出了一种基于改进近端策略优化方法的集群编队方法,通过引入动态估计法作为评价机制,解决了传统近端策略优化方法收敛速度慢和忽视高价值动作问题,有效提升了数据利用率。仿真试验证明,该方法能够提高训练效率,解决样本复用问题,具有良好的决策性能。 展开更多
关键词 无人机集群 深度强化学习 端策略优化 逆强化学习 集群决策
下载PDF
结合注意力机制与好奇心驱动的近端策略优化算法
16
作者 陈至栩 张荣芬 +2 位作者 刘宇红 王子鹏 黄继辉 《计算机应用与软件》 北大核心 2024年第3期258-265,275,共9页
大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动... 大多数真实世界的问题中外在世界的激励往往极其稀疏,Agent因得不到反馈而缺乏有效的机制更新策略函数。单纯利用内在好奇心机制驱动会受到无用或有害好奇心的影响导致探索任务失败。针对以上问题,提出一种结合注意力机制与好奇心驱动的近端策略优化算法,Agent能够通过好奇心驱动探索未知环境,同时结合注意力机制的理性好奇心能够有效控制Agent因有害好奇心导致的异常探索,使近端策略优化算法保持较快速度和更稳定的状态进行策略更新。实验结果表明该方法下Agent有更好的性能,能取得更高的平均奖励回报。 展开更多
关键词 深度强化学习 注意力机制 端策略优化 好奇心机制
下载PDF
无人机辅助MEC车辆任务卸载与功率控制近端策略优化算法
17
作者 谭国平 易文雄 +1 位作者 周思源 胡鹤轩 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2361-2371,共11页
无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边... 无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边缘计算架构,考虑无线信道时变特性及车辆高移动性等动态变化特征,构建出基于非正交多址(NOMA)的车载任务卸载与功率控制优化问题模型,然后将该问题建模成马尔可夫决策过程,并提出一种基于近端策略优化(PPO)的分布式深度强化学习算法,使得车辆只需根据自身获取局部信息,自主决策任务卸载量及相关发射功率,从而达到时延与能耗的最佳均衡性能。仿真结果表明,与现有方法相比较,本文所提任务卸载与功率控制近端策略优化方案不仅能够显著获得更优的时延与能耗性能,所提方案平均系统代价性能提升至少13%以上,而且提供一种性能均衡优化方法,能够通过调节用户偏好权重因子,达到系统时延与能耗水平之间的最佳均衡。 展开更多
关键词 无人机辅助计算 移动边缘计算 端策略优化 深度强化学习 功率控制和任务卸载
下载PDF
基于改进近端策略优化算法控制的应急无人机飞行控制系统研究
18
作者 王进月 尹存珍 +1 位作者 佀庆民 付帅 《科学技术创新》 2024年第14期27-30,共4页
为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准... 为进一步提高应急无人机在执行任务时的飞行控制的效果,提出利用维度裁剪技术,优化解决近端策略优化算法(PPO)的零梯度问题,在保持良好采样效率的同时,加快收敛速率,从而提高控制性能。仿真试验结果表明,改进PPO算法在不同迭代次数的准确率均大于90%,最高准确率为92%,而k-NN算法的准确率在不同迭代次数上存在一定波动,最高准确率为90%,最低准确率仅为80%。且改进PPO算法和PPO算法的总计算时间成本基本相同,均为1 932.4 s,但改进PPO算法在训练过程中能使损失值收敛得更快。 展开更多
关键词 端策略优化算法 维度裁剪技术 准确率 控制性能
下载PDF
基于深度强化学习近端策略优化的电网无功优化方法 被引量:12
19
作者 张沛 朱驻军 谢桦 《电网技术》 EI CSCD 北大核心 2023年第2期562-570,共9页
新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IE... 新能源和负荷波动给无功优化带来更大的挑战。考虑新能源和负荷时变特性,将无功优化问题构建成强化学习问题。提出了约束–目标划分和目标预设的方法设计奖励函数,并采用近端策略优化算法求解强化学习问题,获得无功优化策略。以改进的IEEE39系统开展案例分析,结果表明所提的奖励函数能提高智能体收敛速度,基于强化学习求解的无功优化策略在决策效果和决策时间上优于传统确定性优化算法。 展开更多
关键词 无功优化 新型电力系统 深度强化学习 端策略优化 数据驱动
下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:7
20
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合端策略优化 智能体设计
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部