期刊文献+
共找到242篇文章
< 1 2 13 >
每页显示 20 50 100
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
1
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(ddpg)
下载PDF
基于改进DDPG的变速抽蓄机组参与系统调频研究
2
作者 劳文洁 史林军 +3 位作者 王伟 杨冬梅 吴峰 林克曼 《太阳能学报》 EI CAS CSCD 北大核心 2024年第3期240-250,共11页
在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频... 在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频率控制模型。其次,在考虑机组运行约束的基础上以最小化系统频率偏差及调频出力为目标,引入DDPG算法对各机组的AGC控制指令进行优化。通过在预学习中同时引入随机外部扰动与模型参数变化,提高AGC控制器在具有强不确定性环境中的适应性。最后,在仿真验证DFIM-PSH调频优势的基础上,在不同风电接入及扰动等多场景进行仿真分析,结果表明,所提频率控制方法能有效改善新型电力系统的频率特性且具有强鲁棒性。 展开更多
关键词 抽水蓄能机组 鲁棒性(控制系统) 频率控制 深度确定性策略梯度算法 新型电力系统
下载PDF
自动驾驶路径优化的RF-DDPG车辆控制算法研究
3
作者 焦龙飞 谷志茹 +2 位作者 舒小华 袁鹏 王建斌 《湖南工业大学学报》 2024年第1期62-69,共8页
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法... 针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。 展开更多
关键词 自动驾驶 路径跟踪 深度强化学习 路径控制 ddpg算法
下载PDF
基于态势评估及DDPG算法的一对一空战格斗控制方法
4
作者 贺宝记 白林亭 文鹏程 《航空工程进展》 CSCD 2024年第2期179-187,共9页
已有的空中格斗控制方法未综合考虑基于专家知识的态势评估及通过连续性速度变化控制空战格斗的问题。基于深度确定性策略梯度(DDPG)强化学习算法,在态势评估函数作为强化学习奖励函数的基础上,设计综合考虑飞行高度上下限、飞行过载以... 已有的空中格斗控制方法未综合考虑基于专家知识的态势评估及通过连续性速度变化控制空战格斗的问题。基于深度确定性策略梯度(DDPG)强化学习算法,在态势评估函数作为强化学习奖励函数的基础上,设计综合考虑飞行高度上下限、飞行过载以及飞行速度上下限的强化学习环境;通过全连接的载机速度控制网络与环境奖励网络,实现DDPG算法与学习环境的交互,并根据高度与速度异常、被导弹锁定时间以及格斗时间设计空战格斗结束条件;通过模拟一对一空战格斗,对该格斗控制方法在环境限制学习、态势评估得分以及格斗模式学习进行验证。结果表明:本文提出的空战格斗控制方法有效,能够为自主空战格斗进一步发展提供指导。 展开更多
关键词 强化学习 态势评估 深度确定性策略梯度 空战格斗
下载PDF
基于MADDPG的多AGVs路径规划算法
5
作者 尹华一 尤雅丽 +1 位作者 黄新栋 段青娜 《厦门理工学院学报》 2024年第1期37-46,共10页
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函... 针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。 展开更多
关键词 自动导引车系统(AGVs) 路径规划 多智能体深度确定性策略梯度(MAddpg)算法 深度强化学习 多智能体
下载PDF
基于DDPG的换流站融合终端任务卸载与资源调度方法
6
作者 白巍 张东磊 +2 位作者 付俭定 夏清悦 徐可馨 《电力信息与通信技术》 2024年第3期58-64,共7页
随着电力数字化技术的快速发展,数字换流站作为电力系统的关键组成部分,面临着日益增加的计算压力。针对数字换流站中融合终端的计算业务需求,提出了一种云–边缘–本地三层计算卸载框架。考虑终端设备的移动性,文章以最小化系统总时延... 随着电力数字化技术的快速发展,数字换流站作为电力系统的关键组成部分,面临着日益增加的计算压力。针对数字换流站中融合终端的计算业务需求,提出了一种云–边缘–本地三层计算卸载框架。考虑终端设备的移动性,文章以最小化系统总时延为目标,根据业务需求构建马尔科夫决策模型,采用基于深度确定性策略梯度算法的动态任务卸载优化方法实现对云–边–端三层的总体计算资源和网络资源的最优调度。通过搭建深度强化学习环境并仿真实验,结果表明,所提方案相比于边缘–本地双层卸载方案,系统总时延减少了29.6%。 展开更多
关键词 数字换流站 任务卸载 深度强化学习 深度确定性策略梯度
下载PDF
基于DDPG的高速飞行器预测校正制导律设计
7
作者 王晓威 殷玮 +2 位作者 杨亚 沈昱恒 颜涛 《航天控制》 CSCD 2024年第2期22-28,共7页
针对高速飞行器在再入滑翔过程中的多约束、强时变问题,本文结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的在线自主决策优势,根据威胁区信息,实时生成规避策略来进行动态禁飞区规避航迹规划。进一步为增强... 针对高速飞行器在再入滑翔过程中的多约束、强时变问题,本文结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的在线自主决策优势,根据威胁区信息,实时生成规避策略来进行动态禁飞区规避航迹规划。进一步为增强高速飞行器对环境不确定因素的抗干扰能力,在规避轨迹基础上选取航路特征点集合,采用预测校正在线制导方式,根据飞行任务需求和终端约束,实时校正高速飞行器飞行状态,最终实现高速飞行器精确制导。同时,为验证方法的有效性,开展了相应的数值仿真分析。结果表明,本文方法能够有效规避禁飞区,增强了对不确定因素的适应性,具有一定的工程应用价值。 展开更多
关键词 高速飞行器 禁飞区 ddpg算法 预测校正制导
下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
8
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
下载PDF
A-DDPG:多用户边缘计算系统的卸载研究 被引量:2
9
作者 曹绍华 姜佳佳 +2 位作者 陈舒 詹子俊 张卫山 《计算机工程与应用》 CSCD 北大核心 2023年第1期259-268,共10页
为了降低多边缘服务器多用户系统中用户的总成本,结合深度确定性策略梯度(deep deterministic policy gradient,DDPG)、长短期记忆网络(LSTM)和注意力机制,提出了一种基于DDPG的深度强化学习卸载算法(A-DDPG)。该算法采用二进制卸载策略... 为了降低多边缘服务器多用户系统中用户的总成本,结合深度确定性策略梯度(deep deterministic policy gradient,DDPG)、长短期记忆网络(LSTM)和注意力机制,提出了一种基于DDPG的深度强化学习卸载算法(A-DDPG)。该算法采用二进制卸载策略,并且将任务的延迟敏感性和服务器负载的有限性以及任务迁移考虑在内,自适应地卸载任务,以最大限度减少由延迟敏感型任务超时造成的总损失。考虑时延和能耗两个指标并设定了不同的权重值,解决因用户类型不同带来的不公平问题,制定了任务卸载问题以最小化所有任务完成时延和能量消耗的总成本,以目标服务器的选择和数据卸载量为学习目标。实验结果表明,A-DDPG算法具有良好的稳定性和收敛性,与DDPG算法和双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法相比,A-DDPG算法的用户总成本分别降低了27%和26.66%,平均达到最优任务失败率的时间分别提前了57.14%和40%,其在奖励、总成本和任务失败率方面取得了较好的效果。 展开更多
关键词 移动边缘计算 计算卸载 深度确定性策略梯度(ddpg) 资源分配
下载PDF
基于DDPG算法的微网负载端接口变换器自抗扰控制
10
作者 周雪松 张心茹 +3 位作者 赵浛宇 王博 赵明 问虎龙 《电力系统保护与控制》 EI CSCD 北大核心 2023年第21期66-75,共10页
直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(dee... 直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法整定线性自抗扰控制器参数的方法。依靠引入了智能算法的自抗扰微电网控制系统,实现了控制器参数的自适应调整,从而实现了微电网接口变换器的稳定运行。通过仿真对比了各类典型工况下,DDPG-LADRC与传统线性自抗扰控制器(linear active disturbance rejection control,LADRC)、双闭环比例-积分控制器的性能差异,验证了所提控制策略的有效性。而参数摄动下的鲁棒性分析结果结合多项指标下的系统整体性分析,充分体现了控制器参数的智能化调整所带来的多工况自适应性增益的优越性,具备较强的工程价值。 展开更多
关键词 微电网 DC-DC变换器 线性自抗扰控制 深度强化学习 ddpg算法 抗扰性
下载PDF
改进DDPG算法在外骨骼机械臂轨迹运动中的应用 被引量:3
11
作者 苏杰 刘光宇 +1 位作者 暨仲明 黄雨梦 《传感器与微系统》 CSCD 北大核心 2023年第2期149-152,160,共5页
针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策... 针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策略。此外,相较于以往二值奖励函数,本文根据物理模型提出针对化的分区奖励。在Open AI Gym平台上实现仿真环境,实验结果表明:改进的算法收敛速度提升了约9.2%,学习过程更加稳定。 展开更多
关键词 外骨骼机械臂 深度强化学习 优先经验回放与分区奖励 深度确定性策略梯度
下载PDF
基于DDPG算法的风力发电机变桨距控制研究 被引量:1
12
作者 张前 何山 +3 位作者 黄嵩 董新胜 杨定乾 胡帅 《科学技术与工程》 北大核心 2023年第18期7764-7771,共8页
风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,提出了一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以... 风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,提出了一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以风机模型为训练环境,功率为奖励目标,变桨角度为输出,采用深度神经网络搭建Actor-Critic单元,训练最优变桨策略。采用阶跃、低湍流、高湍流3种典型风况对算法进行检测。仿真结果表明,不同风况下基于DDPG算法控制器的控制精度、超调量、调节时间等性能均优于传统比例-积分-微分控制器效果。 展开更多
关键词 风力发电机 强化学习 深度确定性策略梯度 变桨距控制
下载PDF
基于DDPG算法的双轮腿机器人运动控制研究 被引量:4
13
作者 陈恺丰 田博睿 +4 位作者 李和清 赵晨阳 陆祖兴 李新德 邓勇 《系统工程与电子技术》 EI CSCD 北大核心 2023年第4期1144-1151,共8页
轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic... 轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的双轮腿机器人控制方法。首先,分析了双轮腿机器人模型及其模糊动力学模型;然后,使用DDPG算法生成双轮腿机器人在崎岖地面的运动控制策略;最后,为了验证控制器性能,分别进行了3组运动控制对比实验。仿真实验表明,在缺少地面状况先验知识的条件下,采用DDPG算法生成的运动控制策略实现了双轮腿式机器人在崎岖地面快速稳定运动的功能,其平均速度相比双轮机器人提高了约29.2%,姿态角偏移峰值相比双足机器人分别减小了约43.9%、66%、50%。 展开更多
关键词 运动控制 强化学习 轮腿机器人 深度确定性策略梯度算法
下载PDF
基于元Q学习与DDPG的机械臂接近技能学习方法 被引量:1
14
作者 李茂捷 徐国政 +1 位作者 高翔 谭彩铭 《南京邮电大学学报(自然科学版)》 北大核心 2023年第1期96-103,共8页
针对深度强化学习方法在机械臂的接近技能学习中普遍存在的样本效率低、泛化性差的问题,提出一种基于元Q学习的技能学习方法。首先利用结合后视经验回放(Hindsight Experience Replay, HER)的DDPG训练机械臂以指定姿态到达目标点,验证... 针对深度强化学习方法在机械臂的接近技能学习中普遍存在的样本效率低、泛化性差的问题,提出一种基于元Q学习的技能学习方法。首先利用结合后视经验回放(Hindsight Experience Replay, HER)的DDPG训练机械臂以指定姿态到达目标点,验证了算法在接近任务中的有效性;其次,在相关任务集上构造多任务目标作为优化对象,利用结合HER的DDPG训练模型,得到泛化性强的元训练模型和元训练数据,此外利用GRU获取轨迹上下文变量;最后,先在新任务上进行少量训练,再利用元训练数据训练模型进一步提升性能。仿真实验表明,在初始性能、学习速率和收敛性能三方面元Q学习均带来明显提升,其中达到期望性能所需样本量降低77%,平均成功率提高15%。 展开更多
关键词 机器人学习 元强化学习 深度确定性策略梯度 元Q学习 样本效率
下载PDF
基于DDPG模型的建筑能耗控制方法 被引量:1
15
作者 周鑫 陈建平 傅启明 《计算机应用与软件》 北大核心 2023年第2期40-47,共8页
针对居民建筑能耗逐渐增加、传统控制方法效率低下的问题,提出一种基于深度确定性策略梯度的建筑能耗控制方法。该方法利用深度强化学习模型,将建筑电力使用问题建模为强化学习的控制问题,解决负荷降低和成本最小化的问题。根据某开源... 针对居民建筑能耗逐渐增加、传统控制方法效率低下的问题,提出一种基于深度确定性策略梯度的建筑能耗控制方法。该方法利用深度强化学习模型,将建筑电力使用问题建模为强化学习的控制问题,解决负荷降低和成本最小化的问题。根据某开源数据库中居民的能耗使用数据,结合深度Q网络、确定性策略梯度和深度确定性策略梯度算法进行实验验证。实验结果表明,该方法能够有效降低负荷峰值与电力能源使用成本,实现建筑节能的目的。 展开更多
关键词 深度强化学习 深度确定性策略梯度 策略优化 建筑节能
下载PDF
改进型DDPG算法的多智能体编队控制与仿真
16
作者 景永年 耿双双 +1 位作者 向瑶 文家燕 《广西科技大学学报》 CAS 2023年第3期62-71,共10页
针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化... 针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable capacity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。 展开更多
关键词 深度学习 强化学习 深度确定性策略梯度算法(ddpg算法) 多智能体 编队控制 避障
下载PDF
基于DDPG的下肢康复机器人轨迹跟踪控制
17
作者 赵子瑞 陶庆 +3 位作者 杨涛 吴斌 王迪 方婧瑶 《机床与液压》 北大核心 2023年第11期13-19,共7页
针对脑卒中患者在被动训练阶段使用下肢外骨骼康复机器人的高精度轨迹跟踪控制问题,以下肢外骨骼康复机器人为研究对象,提出一种基于深度确定性策略梯度的PD控制方法。采用Vicon三维动作捕捉系统采集正常人体步行的关节角度作为期望关... 针对脑卒中患者在被动训练阶段使用下肢外骨骼康复机器人的高精度轨迹跟踪控制问题,以下肢外骨骼康复机器人为研究对象,提出一种基于深度确定性策略梯度的PD控制方法。采用Vicon三维动作捕捉系统采集正常人体步行的关节角度作为期望关节角度轨迹并建立下肢外骨骼机器人的动力学模型。该方法根据每次的误差输入以及与动力学模型交互获得奖励值而动态更新自身网络参数,从而自适应输出最佳的PD参数值。仿真结果表明:相较于传统PD控制,该方法髋、膝以及踝关节的跟踪误差平均减少9.4%,误差呈收敛趋势并趋于0,说明该方法可以有效地跟踪期望关节角度轨迹并具有良好的跟踪控制精度,保证患者的康复效果。 展开更多
关键词 下肢康复机器人 深度确定性梯度策略 轨迹跟踪控制 仿真分析
下载PDF
A UAV collaborative defense scheme driven by DDPG algorithm
18
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(ddpg)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
下载PDF
基于MADDPG算法的建筑群柔性负荷优化调控方法
19
作者 包义辛 徐椤赟 杨强 《综合智慧能源》 CAS 2023年第7期61-69,共9页
随着电网调度环境和信息整理环境日趋复杂,电网调控的难度也随之增加。针对深度强化学习技术具有有效感知复杂系统运行状态、适应性强、可扩展性好等特点,提出了基于深度强化学习的配网优化调度方法。构建了考虑源-网-荷-储的模拟建筑... 随着电网调度环境和信息整理环境日趋复杂,电网调控的难度也随之增加。针对深度强化学习技术具有有效感知复杂系统运行状态、适应性强、可扩展性好等特点,提出了基于深度强化学习的配网优化调度方法。构建了考虑源-网-荷-储的模拟建筑体配网模型,从原理出发对多智能体深度确定性策略梯度(MADDPG)算法进行静态优化,将模型与真实数据导入适用于电网级目标的多智能体强化学习框架中,尝试用优化后的算法对配网系统进行电压调控。结果表明,所用算法基本消除了配网系统的违规峰值电压,降低了总体电压偏差;优化后的多目标导向算法在保持电压稳定的同时减小了负载-发电功率差,使负载功率损耗维持较低水平,表明基于深度强化学习的建筑群柔性负荷优化调控方法具有一定有效性。 展开更多
关键词 微电网调控 能量管理 深度强化学习 确定性策略梯度 多目标优化 源网荷储 建筑群柔性负荷
下载PDF
RVO-DDPG算法在多UAV集结航路规划的应用
20
作者 杨秀霞 高恒杰 +1 位作者 刘伟 张毅 《计算机工程与应用》 CSCD 北大核心 2023年第1期308-316,共9页
针对传统智能优化算法处理不确定复杂环境下多UAV集结航路规划存在计算量大、耗时长的问题,提出了一种基于互惠速度障碍法(reciprocal velocity obstacle,RVO)的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。引... 针对传统智能优化算法处理不确定复杂环境下多UAV集结航路规划存在计算量大、耗时长的问题,提出了一种基于互惠速度障碍法(reciprocal velocity obstacle,RVO)的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。引入互惠速度障碍法指导UAV对不确定环境内障碍进行避碰,有效提高了目标actor网络的收敛速度,增强了算法的学习效率。设计了一种基于综合代价的奖励函数,将多UAV航路规划中的多目标优化问题转化为DDPG算法的奖励函数设计问题,该设计有效解决了传统DDPG算法易产生局部最优解的问题。基于Pycharm软件平台通过仿真验证了该算法的性能,并与多种算法进行对比。仿真实验表明,RVO-DDPG算法具有更快的决策速度和更好的实用性。 展开更多
关键词 无人机 航路规划 编队集结 深度确定性策略梯度算法(ddpg) 互惠速度障碍法(RVO)
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部