期刊文献+
共找到76篇文章
< 1 2 4 >
每页显示 20 50 100
A UAV collaborative defense scheme driven by DDPG algorithm 被引量:1
1
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(DDPG)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
下载PDF
考虑智能网联车辆影响的八车道高速公路施工区可变限速控制方法
2
作者 过秀成 肖哲 +2 位作者 张一鸣 张叶平 许鹏宇 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期353-359,共7页
为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标... 为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标、瓶颈路段速度标准差为安全指标的复合奖励值,利用深度确定性策略梯度算法,分车道动态求解最佳限速值.仿真结果表明,所提可变限速控制方法在不同智能网联车辆渗漏率条件下均能有效提升交通流运行效率和安全水平,且在智能网联车辆渗漏率较低时,提升效果更加显著.当智能网联车辆渗漏率为1.0时,瓶颈下游路段交通流量提升10.1%,瓶颈路段速度标准差均值下降68.9%;当智能网联车辆渗漏率为0时,瓶颈下游路段交通流量提升20.7%,瓶颈路段速度标准差均值下降78.1%.智能网联车辆的引入能够提升至多52.0%的瓶颈下游路段交通流量. 展开更多
关键词 可变限速控制 深度确定性策略梯度算法 八车道高速公路施工区 智能网联车辆 协同自适应巡航控制
下载PDF
基于改进DDPG的变速抽蓄机组参与系统调频研究
3
作者 劳文洁 史林军 +3 位作者 王伟 杨冬梅 吴峰 林克曼 《太阳能学报》 EI CAS CSCD 北大核心 2024年第3期240-250,共11页
在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频... 在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频率控制模型。其次,在考虑机组运行约束的基础上以最小化系统频率偏差及调频出力为目标,引入DDPG算法对各机组的AGC控制指令进行优化。通过在预学习中同时引入随机外部扰动与模型参数变化,提高AGC控制器在具有强不确定性环境中的适应性。最后,在仿真验证DFIM-PSH调频优势的基础上,在不同风电接入及扰动等多场景进行仿真分析,结果表明,所提频率控制方法能有效改善新型电力系统的频率特性且具有强鲁棒性。 展开更多
关键词 抽水蓄能机组 鲁棒性(控制系统) 频率控制 深度确定性策略梯度算法 新型电力系统
下载PDF
基于多维度优先级经验回放机制的深度确定性策略梯度算法
4
作者 荣垂霆 李海军 +2 位作者 朱恒伟 刘延旭 于士军 《德州学院学报》 2024年第4期21-27,32,共8页
为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类... 为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类;其次,利用稀缺性和新奇性两个指标对样本进行评分,并将稀缺性和新奇性的评分进行加权组合,得到最终的优先级评分;最后,将设计的多维度优先级经验回放机制方法应用在深度确定性策略梯度算法中,在强化学习连续控制任务中对改进算法进行测试,实验结果表明,改进算法的收敛速度有所提升。 展开更多
关键词 深度确定性策略梯度算法 强化学习 经验回放机制 多维度优先级
下载PDF
基于ATMADDPG算法的多水面无人航行器编队导航
5
作者 王思琪 关巍 +1 位作者 佟敏 赵盛烨 《吉林大学学报(信息科学版)》 CAS 2024年第4期588-599,共12页
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略... 为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略,并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将4艘相同的“百川号”无人船作为实验对象。实验结果表明,基于ATMADDPG算法的队形保持策略能实现稳定的多无人船编队导航,并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG:Multi-Agent Depth Deterministic Policy Gradient)算法,所提出的ATMADDPG算法在收敛速度、队形保持能力和对环境变化的适应性等方面表现出更优越的性能,综合导航效率可提高约80%,具有较大的应用潜力。 展开更多
关键词 多无人船编队导航 MADDPG算法 注意力机制 深度强化学习
下载PDF
自动驾驶路径优化的RF-DDPG车辆控制算法研究
6
作者 焦龙飞 谷志茹 +2 位作者 舒小华 袁鹏 王建斌 《湖南工业大学学报》 2024年第1期62-69,共8页
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法... 针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。 展开更多
关键词 自动驾驶 路径跟踪 深度强化学习 路径控制 DDPG算法
下载PDF
基于扰动流体与TD3的无人机路径规划算法
7
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
下载PDF
基于DDPG改进PID算法的堆肥翻堆作业反馈控制
8
作者 王悦辰 王纪章 +1 位作者 茆寒 姚承志 《中国农机化学报》 北大核心 2024年第6期184-190,200,共8页
在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业... 在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业负荷与翻堆物料含水率、翻堆机行走速度关系模型,并结合翻堆机变频调速控制模型,利用DDPG(Deep Deterministic Policy Gradient)改进PID算法对翻堆作业调速系统进行优化控制。经过Simulink仿真结果表明,DDPG改进PID算法相比传统PID算法在超调量上减少6.7%,调节时间减少2.5 s,并且抗扰动与跟随性能均更优。翻堆作业现场测试结果表明:DDPG改进PID算法的控制方式相比传统PID算法超调量要降低4%、调节时间减少2 s,相比人工控制其调节时间减少6 s。 展开更多
关键词 堆肥 翻堆 PID控制 反馈控制 DDPG算法
下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
9
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能体深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
下载PDF
基于深度强化学习的个性化跟车控制模型
10
作者 孙腾超 陈焕明 《农业装备与车辆工程》 2024年第5期87-91,共5页
为解决自动驾驶汽车跟车控制问题,提出并改进了一种基于深度强化学习的个性化跟车控制模型。建立车辆安全时距模型,将其融入车辆运动学模型中;使用深度确定性策略梯度(DDPG)算法训练模型;通过MATLAB和CarSim软件对学习到的控制策略进行... 为解决自动驾驶汽车跟车控制问题,提出并改进了一种基于深度强化学习的个性化跟车控制模型。建立车辆安全时距模型,将其融入车辆运动学模型中;使用深度确定性策略梯度(DDPG)算法训练模型;通过MATLAB和CarSim软件对学习到的控制策略进行联合仿真验证。为使训练结果更加真实可靠,提出将CarSim软件融入到智能体的训练过程;将个性化模块引入模型,使模型可以通过改变参数得到不同的驾驶风格。实验结果表明:在一般车速下,该模型能实现在前车加速或减速情况下控制车辆以一定车速安全行驶,并能够通过改变训练参数实现个性化控制,对自动驾驶车辆跟车过程的研究有一定指导意义。 展开更多
关键词 自动驾驶汽车 个性化跟车模型 深度强化学习 深度确定性策略梯度(DDPG)算法
下载PDF
基于MADDPG的多AGVs路径规划算法
11
作者 尹华一 尤雅丽 +1 位作者 黄新栋 段青娜 《厦门理工学院学报》 2024年第1期37-46,共10页
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函... 针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。 展开更多
关键词 自动导引车系统(AGVs) 路径规划 多智能体深度确定性策略梯度(MADDPG)算法 深度强化学习 多智能体
下载PDF
基于深度强化学习的自主换道控制模型
12
作者 孙腾超 陈焕明 《农业装备与车辆工程》 2024年第4期30-34,共5页
为解决自动驾驶汽车快速安全换道问题,提出并改进了一种基于深度强化学习的自主换道控制模型。首先建立车辆动力学运动模型,其次使用深度确定性策略梯度(DDPG)算法更新模型,最后通过MATLAB/CarSim对学习到的控制策略进行联合仿真验证。... 为解决自动驾驶汽车快速安全换道问题,提出并改进了一种基于深度强化学习的自主换道控制模型。首先建立车辆动力学运动模型,其次使用深度确定性策略梯度(DDPG)算法更新模型,最后通过MATLAB/CarSim对学习到的控制策略进行联合仿真验证。为了使模型更真实可靠,提出将CarSim融入智能体的训练,同时为解决传统模型在换道后期控制效果不理想问题,提出一种基于采样时间的方向盘转角输出模型。结果表明:在60、80 km/h车速下,提出的模型从换道开始到稳定行驶的过程相比于改进前更平顺、快速,验证了模型能够实现一般车速下的自主换道控制,为车辆的自主换道研究提供一定的参考。 展开更多
关键词 自动驾驶汽车 自主换道模型 深度强化学习 轨迹规划跟踪 深度确定性策略梯度算法
下载PDF
D2D通信增强的蜂窝网络中基于DDPG的资源分配
13
作者 唐睿 庞川林 +2 位作者 张睿智 刘川 岳士博 《计算机应用》 CSCD 北大核心 2024年第5期1562-1569,共8页
针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为... 针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。 展开更多
关键词 终端直通通信 资源分配 马尔可夫决策过程 深度强化学习 深度确定性策略梯度算法
下载PDF
基于深度强化学习的IRS辅助NOMA-MEC通信资源分配优化
14
作者 方娟 刘珍珍 +1 位作者 陈思琪 李硕朋 《北京工业大学学报》 CAS CSCD 北大核心 2024年第8期930-938,共9页
为了解决无法与边缘服务器建立直连通信链路的盲区边缘用户卸载任务的问题,设计了一个基于深度强化学习(deep reinforcement learning, DRL)的智能反射面(intelligent reflecting surface, IRS)辅助非正交多址(non-orthogonal multiple ... 为了解决无法与边缘服务器建立直连通信链路的盲区边缘用户卸载任务的问题,设计了一个基于深度强化学习(deep reinforcement learning, DRL)的智能反射面(intelligent reflecting surface, IRS)辅助非正交多址(non-orthogonal multiple access, NOMA)通信的资源分配优化算法,以获得由系统和速率和能源效率(energy efficiency, EE)加权的最大系统收益,从而实现绿色高效通信。通过深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法联合优化传输功率分配和IRS的反射相移矩阵。仿真结果表明,使用DDPG算法处理移动边缘计算(mobile edge computing, MEC)的通信资源分配优于其他几种对比实验算法。 展开更多
关键词 非正交多址(non-orthogonal multiple access NOMA) 智能反射面(intelligent reflecting surface IRS) 深度确定性策略梯度(deep deterministic policy gradient DDPG)算法 移动边缘计算(mobile edge computing MEC) 能源效率(energy efficiency EE) 系统收益
下载PDF
基于深度强化学习的分层自适应PID控制算法
15
作者 余文浩 齐立哲 +1 位作者 梁瀚文 孙云权 《计算机系统应用》 2024年第9期245-252,共8页
比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,... 比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,即TD3-PID,用于移动机器人的自动控制.其中,上层控制器通过实时观测当前环境状态和系统状态实现对下层PID控制器参数和输出补偿量进行调整,以实时补偿误差从而优化系统性能.本文将所提出的TD3-PID控制器应用于4轮移动机器人轨迹跟踪任务并和其他控制方法进行了真实场景实验对比.结果显示TD3-PID控制器表现出更优越的动态响应性能和抗干扰能力,整体响应误差显著减小,在提高控制系统性能方面具有显著的优势. 展开更多
关键词 深度强化学习 PID算法 自适应控制 确定性策略梯度算法 轨迹跟踪
下载PDF
基于DDPG算法的海运船舶避碰路径规划方法
16
作者 初文忠 《科技通报》 2024年第8期51-54,共4页
针对多船舶会遇情况,以提高避碰路径规划能力,本文提出了一种基于深度确定策略梯度算法(deep deterministic policy gradient,DDPG)的海运船舶避碰路径规划方法。利用栅格法建立船舶航行路线的静态全局环境,并利用人工蜂群算法设计静态... 针对多船舶会遇情况,以提高避碰路径规划能力,本文提出了一种基于深度确定策略梯度算法(deep deterministic policy gradient,DDPG)的海运船舶避碰路径规划方法。利用栅格法建立船舶航行路线的静态全局环境,并利用人工蜂群算法设计静态初始路径。针对多船会遇情况,计算海运船舶与其他船舶发生碰撞的危险程度,以危险程度作为DDPG算法的输入参数,通过训练与学习输出海运船舶避碰路径的规划结果。实验表明:经过本文方法的规划后,海运船舶安全避开了另外三艘船舶,未发生碰撞事故,安全到达目标点,证明本文方法规划的线路避碰性能更强,提高了海运船舶航行的安全性。 展开更多
关键词 深度确定策略梯度算法 海运船舶 静态初始路径 碰撞危险程度 避碰路径 路径规划
下载PDF
基于深度强化学习的配电网无功电压控制策略研究
17
作者 陶用伟 朱勇 《电工技术》 2024年第15期92-94,共3页
随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强... 随着可再生能源装机规模的逐步提升,并网会对系统的电压造成影响。为了提升对配电网电压的控制要求,提出一种基于深度强化学习的配电网无功电压控制策略。首先以配电网节点电压和网络损耗为目标建立模型;其次将各个光伏逆变器建模为强化学习环境的智能体,通过配电网分区把光伏逆变器的协同控制问题转化为可观测的马尔科夫决策过程,采用双延迟深度确定性梯度算法进行求解;最后结合改进IEEE 33节点进行验证,结果验证了所提策略的有效性,能提升电压的稳定性、降低网损。 展开更多
关键词 深度强化学习 配电网 无功电压控制 双延迟深度确定性梯度算法
下载PDF
基于多无人机的空中计算网络资源分配算法 被引量:1
18
作者 谈玲 许海 +1 位作者 刘玉风 夏景明 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3070-3078,共9页
空中计算(over-the-Air Computation,AirComp)是一种有效提升分布式数据聚合效率的方法.现有研究大多采用单无人机(Unmanned Aerial Vehicle,UAV)方案,未考虑数据聚合质量和系统稳定性.为此,本文提出一种基于多UAV辅助的AirComp网络,旨... 空中计算(over-the-Air Computation,AirComp)是一种有效提升分布式数据聚合效率的方法.现有研究大多采用单无人机(Unmanned Aerial Vehicle,UAV)方案,未考虑数据聚合质量和系统稳定性.为此,本文提出一种基于多UAV辅助的AirComp网络,旨在实现多个地面移动传感器(Ground Mobile Sensor,GMS)的高效聚合.为了改进数据采集质量并全面反映系统性能,本文设计了一个多约束优化问题,通过联合优化UAV-GMS关联、UAV三维(Three Dimensional,3D)部署、UAV去噪因子以及传输功率分配,以最大化系统的最小可达速率.针对多约束优化问题的非线性特征,本文提出一种AirComp网络下多UAV辅助的深度确定性策略梯度优化算法(DeepDeterministicPolicyGradient-basedoptimizationalgorithmformulti-UAVcooperationinAirCompnetwork,AirDDPG-UAV),用以协助多UAV在复杂环境下快速响应聚合任务.该算法利用深度强化学习的确定性策略对网络中的状态、行为和奖励进行优化,以最大化系统最小可达速率.数值结果显示,AirDDPG-UAV算法在保证较低的系统能耗和计算复杂度前提下,能够使系统最小可达速率提高15%,表明本文所提方案适用于分布式数据聚合,可以有效提高数据聚合效率. 展开更多
关键词 无人机 空中计算 3 D部署 深度确定性策略梯度算法 地面移动传感器 数据聚合
下载PDF
基于DDPG算法的微网负载端接口变换器自抗扰控制
19
作者 周雪松 张心茹 +3 位作者 赵浛宇 王博 赵明 问虎龙 《电力系统保护与控制》 EI CSCD 北大核心 2023年第21期66-75,共10页
直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(dee... 直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法整定线性自抗扰控制器参数的方法。依靠引入了智能算法的自抗扰微电网控制系统,实现了控制器参数的自适应调整,从而实现了微电网接口变换器的稳定运行。通过仿真对比了各类典型工况下,DDPG-LADRC与传统线性自抗扰控制器(linear active disturbance rejection control,LADRC)、双闭环比例-积分控制器的性能差异,验证了所提控制策略的有效性。而参数摄动下的鲁棒性分析结果结合多项指标下的系统整体性分析,充分体现了控制器参数的智能化调整所带来的多工况自适应性增益的优越性,具备较强的工程价值。 展开更多
关键词 微电网 DC-DC变换器 线性自抗扰控制 深度强化学习 DDPG算法 抗扰性
下载PDF
基于改进TD3算法的综合能源系统低碳经济调度
20
作者 邱革非 何虹辉 +3 位作者 刘铠铭 罗世杰 何超 沈赋 《电力科学与工程》 2023年第10期52-62,共11页
在用传统调度方法进行综合能源系统低碳经济调度时会面临数据维数高、建模难度大等困难。虽然用基于数据驱动自适应挖掘物理模型的深度强化学习算法有希望克服这些困难,且其中确定性策略梯度算法尤其适用于连续决策变量问题的求解,但该... 在用传统调度方法进行综合能源系统低碳经济调度时会面临数据维数高、建模难度大等困难。虽然用基于数据驱动自适应挖掘物理模型的深度强化学习算法有希望克服这些困难,且其中确定性策略梯度算法尤其适用于连续决策变量问题的求解,但该算法在实际应用时存在训练效率普遍较低的问题。对此,提出了一种基于改进双延迟深度确定性策略梯度算法的调度决策模型。首先基于综合能源系统低碳经济调度特性建立序贯马尔可夫决策过程模型;进而应用改进双延迟深度确定性策略梯度算法构建并训练神经网络,避免过估计并提高网络输出稳定性。同时,为提升网络训练效率,以求和树对训练过程中的历史经验数据进行存储和经验回放采样。实验结果表明,所提方法能对综合能源系统低碳经济调度问题进行有效求解,且比传统强化学习算法表现更优。 展开更多
关键词 综合能源系统 低碳经济调度 电力系统调度 深度强化学习算法 求和树 双延迟深度确定性策略梯度算法
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部