期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
1
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
基于强化学习的核电数字孪生模型自动化同步研究
2
作者 刘浩 肖云龙 +2 位作者 肖焱山 曾祥云 郑胜 《南阳理工学院学报》 2024年第2期47-54,共8页
核电运行数字孪生系统与机组的高效同步是电厂运行优化的基础,是核电安全的重要保障。以核电蒸汽系统数字孪生模型为研究对象,提出了一种基于孪生延迟深度确定性策略梯度的自适应智能优化算法(TD3PSO),通过构建动作网络与动作价值网络,... 核电运行数字孪生系统与机组的高效同步是电厂运行优化的基础,是核电安全的重要保障。以核电蒸汽系统数字孪生模型为研究对象,提出了一种基于孪生延迟深度确定性策略梯度的自适应智能优化算法(TD3PSO),通过构建动作网络与动作价值网络,利用神经网络动态生成基本粒子群优化算法运行过程中所需要的超参数,实现超参数的自我探索,降低人工对算法的干预,解决基本粒子群优化算法容易陷入局部最优的问题。实验表明,TD3PSO算法优于基本粒子群优化算法,相比于人工调试的结果,在优化精度上提高了93.39%,自动化同步效果显著。 展开更多
关键词 数字孪生 自动化同步 自适应 孪生延迟深度确定性策略梯度 智能优化
下载PDF
信控路段混行交通生态驾驶深度强化学习模型
3
作者 辛琪 王嘉琪 +2 位作者 杨文科 徐猛 袁伟 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第3期127-139,共13页
针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并... 针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并采用双延迟深度确定性策略梯度算法优化混行车流中智能网联车辆接近信号交叉口的轨迹。首先,选取车距、速度差、速度、到交叉口距离、排队长度、信号相位及配时等特征作为智能体状态,刻画驾驶安全性和通行效率,特别地,将交叉口排队长度扩增到状态中,解决智能网联车辆因有人驾驶车辆排队而临时停车的问题;其次,构建基于智能体状态和预期到达交叉口时间的多目标奖励函数,同时,优化混行车流下智能网联车辆的效率、能耗、舒适性和安全性,解决动态规划模型约束与求解复杂度关联的问题。仿真训练和测试结果表明,随着智能网联车辆渗透率的提高,车辆在交叉口等待时间显著减少;与无控制相比,能耗降低约5.47%;与动态规划模型相比,能耗降低约4.42%,与基于深度确定性策略梯度轨迹规划模型相比,能耗降低约2.91%。此外,在交通需求和信号周期波动条件下,本文所提模型均可实现智能网联车辆不停车通过信号交叉口。 展开更多
关键词 智能交通 轨迹优化 双延迟深度确定性策略梯度 信号交叉口 智能网联车辆
下载PDF
扩展目标跟踪中基于深度强化学习的传感器管理方法
4
作者 张虹芸 陈辉 张文旭 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1417-1431,共15页
针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测... 针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测马尔科夫决策过程(Partially observed Markov decision process,POMDP)理论框架下,给出基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)算法的扩展目标跟踪传感器管理的基本方法;其次,利用高斯瓦瑟斯坦距离(Gaussian Wasserstein distance,GWD)求解扩展目标先验概率密度与后验概率密度之间的信息增益,对扩展目标多特征估计信息进行综合评价,进而以信息增益作为TD3算法奖励函数的构建;然后,通过推导出的奖励函数,进行基于深度强化学习的传感器管理方法的最优决策;最后,通过构造扩展目标跟踪优化仿真实验,验证了所提方法的有效性. 展开更多
关键词 传感器管理 扩展目标跟踪 深度强化学习 双延迟深度确定性策略梯度 信息增益
下载PDF
基于扰动流体与TD3的无人机路径规划算法
5
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
下载PDF
基于连续动作空间深度强化学习的多数据融合室内定位方法
6
作者 陈雪晨 易嘉旋 +1 位作者 王霭祥 邓晓衡 《物联网学报》 2024年第1期40-48,共9页
基于智能手机的室内定位在研究和工业领域都引起了相当大的关注。然而在复杂的定位环境中,定位的准确性和鲁棒性仍然是具有挑战性的问题。考虑到行人航位推算(PDR,pedestrian dead reckoning)算法被广泛配备在最近的智能手机上,提出了... 基于智能手机的室内定位在研究和工业领域都引起了相当大的关注。然而在复杂的定位环境中,定位的准确性和鲁棒性仍然是具有挑战性的问题。考虑到行人航位推算(PDR,pedestrian dead reckoning)算法被广泛配备在最近的智能手机上,提出了一种基于双延迟深度确定性策略梯度(TD3,twin delayed deep deterministic policy gradient)的室内定位融合方法,该方法集成了Wi-Fi信息和PDR数据,将PDR的定位过程建模为马尔可夫过程并引入了智能体的连续动作空间。最后,与3个最先进的深度Q网络(DQN,deep Q network)室内定位方法进行实验。实验结果表明,该方法能够显著减少定位误差,提高定位准确性。 展开更多
关键词 WI-FI 行人航位推算 室内定位 双延迟深度确定性策略梯度 深度强化学习
下载PDF
太阳能无人机深度强化学习航迹规划及半实物仿真
7
作者 刘子荣 张晓辉 +2 位作者 李焱宇 程奥祖 胡馨元 《无人系统技术》 2024年第4期36-46,共11页
针对太阳能无人机高能效飞行航迹规划及试验验证问题,提出了一种基于深度强化学习的航迹规划方法,并搭建了地面试验平台进行半实物仿真验证。首先,建立太阳能无人机的运动学和动力学模型、能量获取与消耗等模型,并分析了时间、姿态角等... 针对太阳能无人机高能效飞行航迹规划及试验验证问题,提出了一种基于深度强化学习的航迹规划方法,并搭建了地面试验平台进行半实物仿真验证。首先,建立太阳能无人机的运动学和动力学模型、能量获取与消耗等模型,并分析了时间、姿态角等飞行状态与能量状态的耦合效应。其次,建立了太阳能无人机能量最优航迹规划问题,基于双延迟深度确定性策略梯度算法开展智能体训练,并进行了有效性仿真分析。最后,搭建地面半实物测试平台,完成平台自身性能测试后,将强化学习控制器进行在线部署,进而开展半实物仿真试验验证。结果表明,相较于传统飞行策略,所提方法训练出的策略在200 s的飞行时间内获取能量提升2.9%,消耗能量降低30.46%,积累能量提升11.36%。所提策略能更加充分利用太阳能,降低飞行需求功率,达到提能增效的目标,可为太阳能无人机高能效飞行提供参考。 展开更多
关键词 太阳能无人机 高能效飞行 深度强化学习 双延迟深度确定性策略梯度 航迹规划 半实物仿真
下载PDF
基于乐观探索的双延迟深度确定性策略梯度
8
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 双延迟深度确定性策略梯度 探索策略 乐观探索
下载PDF
面向无人机数字孪生边缘网络的联邦学习资源自适应优化机制
9
作者 谢正昊 赖健鑫 +1 位作者 庄晓翀 蒋丽 《广东工业大学学报》 CAS 2024年第4期61-69,共9页
为了解决无人机数字孪生边缘网络联邦学习性能优化问题,本文提出一种基于深度强化学习的无人机数字孪生边缘网络资源调度策略。考虑动态时变的无人机数字孪生边缘网络环境,构建包含地面基站(Base Station,BS)、地面智能终端、空中无人... 为了解决无人机数字孪生边缘网络联邦学习性能优化问题,本文提出一种基于深度强化学习的无人机数字孪生边缘网络资源调度策略。考虑动态时变的无人机数字孪生边缘网络环境,构建包含地面基站(Base Station,BS)、地面智能终端、空中无人机以及无线传输信道的孪生网络模型,建立联合无人机飞行距离、飞行角度以及无线网络频谱资源分配的自适应资源优化模型,实现最小化联邦学习时延的目标。在无人机数字孪生边缘网络环境下,提出多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MA-DDPG),求解自适应资源优化模型。算法训练过程采用中心化训练、去中心化执行的方式,每个无人机智能体在评估动作价值时会考虑其他智能体的状态和动作,而在执行时只根据自身的局部观察来决定动作。上述训练过程将在数字孪生环境中执行,算法收敛后再应用于真实世界,最大限度地减少物理实体的资源开销。仿真结果表明,所提算法可显著降低联邦学习服务时延,同时保证联邦学习训练损失和准确率的优越性。 展开更多
关键词 无人机网络 数字孪生 联邦学习 多智能体深度确定性策略梯度
下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制
10
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 双延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
下载PDF
基于深度强化学习的梯级水蓄风光互补系统优化调度策略研究
11
作者 刘建行 刘方 《广东电力》 北大核心 2024年第5期10-22,共13页
对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-en... 对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-energy complementary system,CHPMCS)为研究对象,首先针对其发电抽蓄双向运行工况灵活转换和互补消纳特征,以系统发电效益最大为目标建立短期优化运行模型;其次,考虑CHPMCS出力连续可调的特点,提出将优化调度问题转换为马尔可夫决策过程,从而将多约束优化问题转换为无约束深度强化学习问题;然后,针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练效率低、易陷入局部最优等缺陷,采用改进DDPG算法对优化调度决策过程进行求解。最后,通过算例验证所提模型和算法的有效性。结果表明:CHPMCS通过水电功能重塑,有效提升了灵活性和调节能力,可以提高新能源的消纳能力和水资源的利用率,并通过“低储高发”提高系统发电效益。 展开更多
关键词 梯级水蓄风光互补系统 优化调度 新能源消纳 深度强化学习 改进深度确定性策略梯度算法
下载PDF
基于深度强化学习的配电网无功电压控制策略研究
12
作者 陶用伟 朱勇 《电工技术》 2024年第15期92-94,共3页
随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强... 随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强化学习环境的智能体,通过配电网分区把光伏逆变器的协同控制问题转化为可观测的马尔科夫决策过程,采用双延迟深度确定性梯度算法进行求解;最后结合改进IEEE 33节点进行验证,结果验证了所提策略的有效性,能提升电压的稳定性、降低网损。 展开更多
关键词 深度强化学习 配电网 无功电压控制 双延迟深度确定性梯度算法
下载PDF
基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 被引量:7
13
作者 顾雪平 刘彤 +2 位作者 李少岩 王铁强 杨晓东 《电工技术学报》 EI CSCD 北大核心 2023年第8期2162-2177,共16页
新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统... 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39节点系统和IEEE 118节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。 展开更多
关键词 新型电力系统 有功安全校正 深度强化学习 改进双延迟深度确定性策略 最优调整方案
下载PDF
需量电费影响下的CCHP系统深度强化学习运行优化
14
作者 高文忠 张毅 《中国农业科技导报》 CAS CSCD 北大核心 2023年第4期100-109,共10页
在全球能源紧张的趋势下,冷热电三联供(combined cold,hot and power,CCHP)系统因能源可梯级利用和一次能源利用率高的优势日益受到重视。然而,由于影响因素复杂、多变,特别是需量电费的存在,CCHP系统以现有控制手段和实时满足用户侧供... 在全球能源紧张的趋势下,冷热电三联供(combined cold,hot and power,CCHP)系统因能源可梯级利用和一次能源利用率高的优势日益受到重视。然而,由于影响因素复杂、多变,特别是需量电费的存在,CCHP系统以现有控制手段和实时满足用户侧供能需求的前提下难以以经济性目标运行。为了在考虑需求电费的条件下最大限度地降低运行成本,提出基于TD3算法的CCHP系统控制策略优化方法,对系统的各个设备进行建模,将CCHP系统运行优化问题转化为马尔卡夫决策问题,利用TD3算法求解,并进行实例验证分析。结果表明,考虑需量电费的TD3代理良好地平衡了需量电费和实时运行费用,且具有泛化性;相较于历史运行策略和不考虑需量电费的TD3代理运行策略,总运行成本分别降低了41.5%和8.6%。研究结果为减少农业供能成本、提高经济性提供了新的解决方案。 展开更多
关键词 冷热电三联供系统 需量电费 深度强化学习 双延迟深度确定性策略梯度
下载PDF
基于改进TD3的MEC多任务计算卸载
15
作者 于波 毛鑫浩 《计算机系统应用》 2023年第12期95-103,共9页
在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只... 在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只考虑卸载优先的策略,这种策略使用户设备(UE)被大量闲置.我们提高了移动边缘计算(MEC)服务器和用户设备(UE)的资源利用率,降低计算卸载的错误率,提出了一种本地优先和改进TD3(twin delayed deep deterministic policy gradient)算法相结合的决策卸载模型,并设计了仿真实验,通过实验证明该模型确实可以提高MEC服务器和UE的资源利用率并降低错误率. 展开更多
关键词 移动边缘计算 计算卸载 双延迟深度确定性策略梯度(TD3) 资源分配
下载PDF
基于强化学习的改进三维A^(*)算法在线航迹规划 被引量:3
16
作者 任智 张栋 唐硕 《系统工程与电子技术》 EI CSCD 北大核心 2023年第1期193-201,共9页
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度... 针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A^(*)算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。 展开更多
关键词 改进A^(*)算法 收缩因子 强化学习 深度确定性策略梯度 在线航迹规划
下载PDF
基于机群划分与深度强化学习的风电场低电压穿越有功/无功功率联合控制策略 被引量:4
17
作者 韩佶 苗世洪 +3 位作者 Martinez-Rico Jon 柳舟 陈哲 蔡杰 《中国电机工程学报》 EI CSCD 北大核心 2023年第11期4228-4243,共16页
在低电压穿越(low voltage ride through,LVRT)过程中,电网企业要求风电场向系统提供无功支撑;在满足所规定的无功输出基础上,利用风电场剩余容量提供有功功率,对保障系统稳定性意义重大。该文提出一种基于机群划分与改进深度确定性策... 在低电压穿越(low voltage ride through,LVRT)过程中,电网企业要求风电场向系统提供无功支撑;在满足所规定的无功输出基础上,利用风电场剩余容量提供有功功率,对保障系统稳定性意义重大。该文提出一种基于机群划分与改进深度确定性策略梯度(deep deterministic policy gradient,DDPG)的风电场LVRT有功/无功功率联合控制方法。首先,将LVRT期间风机的有功/无功控制分为3个阶段,并基于此构建了风机控制模型;其次,根据风机运行特性将其划分至多个机群,在功率分配过程中,对属于同一机群的风机分配相同的控制指令,该步骤大大降低了优化变量个数与优化问题求解难度;然后,提出一种不含评价网络的并行化DDPG(critic-network free based parallel DDPG,CFP-DDPG)深度-强化学习算法框架,确立了基于CFP-DDPG的风电场功率控制框架,设计控制中的状态量、动作量、评价函数、模型训练策略和控制方法;最后,采用我国某实际风电场数据验证方法的有效性,结果表明,机群划分步骤有助于快速准确得到功率分配方案,CFP-DDPG通过改进动作评价方法并引入并行化结构增强了智能体的探索力,有助于取得更优的控制方案。 展开更多
关键词 改进深度确定性策略梯度算法 有功/无功功率联合控制 机群划分 低电压穿越
下载PDF
适用于强化学习惯性环境的分数阶改进OU噪声 被引量:1
18
作者 王涛 张卫华 蒲亦非 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期57-63,共7页
本文将DDPG算法中使用的Ornstein-Uhlenbeck(OU)噪声整数阶微分模型推广为分数阶OU噪声模型,使得噪声的产生不仅和前一步的噪声有关而且和前K步产生的噪声都有关联.通过在gym惯性环境下对比基于分数阶OU噪声的DDPG和TD3算法和原始的DDPG... 本文将DDPG算法中使用的Ornstein-Uhlenbeck(OU)噪声整数阶微分模型推广为分数阶OU噪声模型,使得噪声的产生不仅和前一步的噪声有关而且和前K步产生的噪声都有关联.通过在gym惯性环境下对比基于分数阶OU噪声的DDPG和TD3算法和原始的DDPG和TD3算法,我们发现基于分数阶微积分的OU噪声相比于原始的OU噪声能在更大范围内震荡,使用分数阶OU噪声的算法在惯性环境下具有更好的探索能力,收敛得更快. 展开更多
关键词 DDPG算法 TD3算法 分数阶微积分 OU噪声 强化学习
下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:1
19
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 双延迟深度确定性策略梯度算法 增程式电动轻卡
下载PDF
考虑多主体主动行为的综合能源系统智能运行优化方法
20
作者 陈晓芳 尹华杰 +2 位作者 曾君 廖丁丁 刘俊峰 《电网技术》 EI CSCD 北大核心 2023年第10期4219-4228,共10页
综合能源系统具有主体多样性、逐利性、源荷不确定性及变量高维等特点,给综合能源系统运行优化带来巨大挑战。文章提出考虑多主体主动行为的综合能源系统智能运行优化方法。首先引入负荷聚合商统一管理用户可控负荷和储能资源,根据不同... 综合能源系统具有主体多样性、逐利性、源荷不确定性及变量高维等特点,给综合能源系统运行优化带来巨大挑战。文章提出考虑多主体主动行为的综合能源系统智能运行优化方法。首先引入负荷聚合商统一管理用户可控负荷和储能资源,根据不同主体特点,构建具有综合能源服务商、电负荷聚合商、热负荷聚合商的三智能体群综合能源系统。然后以综合能源系统日综合运行成本最小为优化目标,考虑多主体的主动行为,基于多智能体双延时深度确定性策略梯度强化学习算法(multi-agent twin delayed deep deterministic policy gradient,MATD3)建立分布式优化调度模型。最后仿真结果表明基于MATD3的多主体综合能源系统模型收敛速度快,训练稳定。相比于传统优化方法提高了决策速度,降低了系统运行成本,且表现出更强的环境自适应力。 展开更多
关键词 综合能源系统 多主体 负荷聚合商 主动行为 多智能体双延时深度确定性策略梯度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部