期刊文献+
共找到305篇文章
< 1 2 16 >
每页显示 20 50 100
Perception Enhanced Deep Deterministic Policy Gradient for Autonomous Driving in Complex Scenarios
1
作者 Lyuchao Liao Hankun Xiao +3 位作者 Pengqi Xing Zhenhua Gan Youpeng He Jiajun Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期557-576,共20页
Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonom... Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonomous driving due to the unpredictable entry and exit of vehicles,susceptibility to traffic flow bottlenecks,and imperfect data in perceiving environmental information,rendering them a vital issue in the practical application of autonomous driving.To address the traffic challenges,this work focused on complex roundabouts with multi-lane and proposed a Perception EnhancedDeepDeterministic Policy Gradient(PE-DDPG)for AutonomousDriving in the Roundabouts.Specifically,themodel incorporates an enhanced variational autoencoder featuring an integrated spatial attention mechanism alongside the Deep Deterministic Policy Gradient framework,enhancing the vehicle’s capability to comprehend complex roundabout environments and make decisions.Furthermore,the PE-DDPG model combines a dynamic path optimization strategy for roundabout scenarios,effectively mitigating traffic bottlenecks and augmenting throughput efficiency.Extensive experiments were conducted with the collaborative simulation platform of CARLA and SUMO,and the experimental results show that the proposed PE-DDPG outperforms the baseline methods in terms of the convergence capacity of the training process,the smoothness of driving and the traffic efficiency with diverse traffic flow patterns and penetration rates of autonomous vehicles(AVs).Generally,the proposed PE-DDPGmodel could be employed for autonomous driving in complex scenarios with imperfect data. 展开更多
关键词 Autonomous driving traffic roundabouts deep deterministic policy gradient spatial attention mechanisms
下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
2
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
下载PDF
基于DDPG的智能反射面辅助无线携能通信系统性能优化 被引量:1
3
作者 罗丽平 潘伟民 《物联网学报》 2024年第2期46-55,共10页
针对智能反射面(IRS, intelligent reflecting surface)辅助的多输入单输出(MISO, multiple input singleoutput)无线携能通信(SWIPT, simultaneous wireless information and power transfer)系统,考虑基站最大发射功率、IRS反射相移... 针对智能反射面(IRS, intelligent reflecting surface)辅助的多输入单输出(MISO, multiple input singleoutput)无线携能通信(SWIPT, simultaneous wireless information and power transfer)系统,考虑基站最大发射功率、IRS反射相移矩阵的单位膜约束和能量接收器的最小能量约束,以最大化信息传输速率为目标,联合优化了基站处的波束成形向量和智能反射面的反射波束成形向量。为解决非凸优化问题,提出了一种基于深度强化学习的深度确定性策略梯度(DDPG, deep deterministic policy gradient)算法。仿真结果表明,DDPG算法的平均奖励与学习率有关,在选取合适的学习率的条件下,DDPG算法能获得与传统优化算法相近的平均互信息,但运行时间明显低于传统的非凸优化算法,即使增加天线数和反射单元数,DDPG算法依然可以在较短的时间内收敛。这说明DDPG算法能有效地提高计算效率,更适合实时性要求较高的通信业务。 展开更多
关键词 多输入单输出 无线携能通信 智能反射面 波束成形 深度确定性策略梯度
下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
4
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(ddpg)
下载PDF
A UAV collaborative defense scheme driven by DDPG algorithm 被引量:1
5
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(ddpg)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
下载PDF
自注意力机制结合DDPG的机器人路径规划研究
6
作者 王凤英 陈莹 +1 位作者 袁帅 杜利明 《计算机工程与应用》 CSCD 北大核心 2024年第19期158-166,共9页
为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能... 为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能够将较高权重精确聚焦在障碍物信息中。在复杂环境中,由于机器人缺乏经验导致难以获得正反馈的奖励,影响了机器人的探索能力。将DDPG算法与HER结合,提出DDPG-HER算法,有效利用正负反馈使机器人从成功和失败的经历中均可学习到适当奖励。通过Gazebo搭建静态和动态仿真环境进行训练和测试,实验结果表明所提出的算法能显著提高样本利用率,加快网络模型稳定的速度,解决奖励稀疏的问题,使机器人在环境未知的路径规划中能够高效地避开障碍物到达目标点。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法(ddpg) 后见经验算法(HER) 自注意力机制 机器人路径规划
下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划
7
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(ddpg)算法 课程学习机制 优先经验回放机制
下载PDF
基于改进DDPG的变速抽蓄机组参与系统调频研究
8
作者 劳文洁 史林军 +3 位作者 王伟 杨冬梅 吴峰 林克曼 《太阳能学报》 EI CAS CSCD 北大核心 2024年第3期240-250,共11页
在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频... 在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频率控制模型。其次,在考虑机组运行约束的基础上以最小化系统频率偏差及调频出力为目标,引入DDPG算法对各机组的AGC控制指令进行优化。通过在预学习中同时引入随机外部扰动与模型参数变化,提高AGC控制器在具有强不确定性环境中的适应性。最后,在仿真验证DFIM-PSH调频优势的基础上,在不同风电接入及扰动等多场景进行仿真分析,结果表明,所提频率控制方法能有效改善新型电力系统的频率特性且具有强鲁棒性。 展开更多
关键词 抽水蓄能机组 鲁棒性(控制系统) 频率控制 深度确定性策略梯度算法 新型电力系统
下载PDF
D2D通信增强的蜂窝网络中基于DDPG的资源分配 被引量:1
9
作者 唐睿 庞川林 +2 位作者 张睿智 刘川 岳士博 《计算机应用》 CSCD 北大核心 2024年第5期1562-1569,共8页
针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为... 针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。 展开更多
关键词 终端直通通信 资源分配 马尔可夫决策过程 深度强化学习 深度确定性策略梯度算法
下载PDF
基于ATMADDPG算法的多水面无人航行器编队导航
10
作者 王思琪 关巍 +1 位作者 佟敏 赵盛烨 《吉林大学学报(信息科学版)》 CAS 2024年第4期588-599,共12页
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略... 为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略,并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将4艘相同的“百川号”无人船作为实验对象。实验结果表明,基于ATMADDPG算法的队形保持策略能实现稳定的多无人船编队导航,并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG:Multi-Agent Depth Deterministic Policy Gradient)算法,所提出的ATMADDPG算法在收敛速度、队形保持能力和对环境变化的适应性等方面表现出更优越的性能,综合导航效率可提高约80%,具有较大的应用潜力。 展开更多
关键词 多无人船编队导航 MAddpg算法 注意力机制 深度强化学习
下载PDF
基于DDPG改进PID算法的堆肥翻堆作业反馈控制
11
作者 王悦辰 王纪章 +1 位作者 茆寒 姚承志 《中国农机化学报》 北大核心 2024年第6期184-190,200,共8页
在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业... 在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业负荷与翻堆物料含水率、翻堆机行走速度关系模型,并结合翻堆机变频调速控制模型,利用DDPG(Deep Deterministic Policy Gradient)改进PID算法对翻堆作业调速系统进行优化控制。经过Simulink仿真结果表明,DDPG改进PID算法相比传统PID算法在超调量上减少6.7%,调节时间减少2.5 s,并且抗扰动与跟随性能均更优。翻堆作业现场测试结果表明:DDPG改进PID算法的控制方式相比传统PID算法超调量要降低4%、调节时间减少2 s,相比人工控制其调节时间减少6 s。 展开更多
关键词 堆肥 翻堆 PID控制 反馈控制 ddpg算法
下载PDF
基于DDPG的锅炉NO_(x)排放和屏式过热器超温的多目标优化
12
作者 王赫阳 刘骁 +2 位作者 樊昱晨 刘欣 张超群 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第8期787-797,共11页
锅炉空气分级燃烧技术的使用虽降低了NO_(x)排放,但同时造成了炉内高温火焰上移,导致位于炉膛上部的屏式过热器吸热量增加和超温加剧,影响机组的安全运行.因此,锅炉亟需一个可对NO_(x)排放和屏式过热器超温进行协调优化的多目标控制策略... 锅炉空气分级燃烧技术的使用虽降低了NO_(x)排放,但同时造成了炉内高温火焰上移,导致位于炉膛上部的屏式过热器吸热量增加和超温加剧,影响机组的安全运行.因此,锅炉亟需一个可对NO_(x)排放和屏式过热器超温进行协调优化的多目标控制策略.针对目前基于机器学习的锅炉优化模型普遍局限于针对单一锅炉运行目标的优化,提出了基于深度强化学习的锅炉多目标优化模型,包括预测模型和优化模型:预测模型采用深度神经网络构建锅炉运行参数与NO_(x)浓度和屏式过热器温度的非线性映射;优化模型采用深度确定性策略梯度(DDPG)算法训练策略网络,通过优化运行参数实现锅炉的多目标协同控制.对某600MW锅炉的研究结果表明,通过锅炉配风和过热器减温水量等参数的调整,可实现NO_(x)排放和屏式过热器超温率的协同优化,NO_(x)排放平均降低22.6 mg/m^(3),屏式过热器超温率平均降低0.161. 展开更多
关键词 燃煤锅炉 NO_(x)排放 屏式过热器 多目标优化 深度确定性策略梯度
下载PDF
自动驾驶路径优化的RF-DDPG车辆控制算法研究
13
作者 焦龙飞 谷志茹 +2 位作者 舒小华 袁鹏 王建斌 《湖南工业大学学报》 2024年第1期62-69,共8页
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法... 针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。 展开更多
关键词 自动驾驶 路径跟踪 深度强化学习 路径控制 ddpg算法
下载PDF
基于改进DDPG-PID的芯片共晶键合温度控制
14
作者 刘家池 陈秀梅 邓娅莉 《半导体技术》 CAS 北大核心 2024年第11期973-980,共8页
芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度... 芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度确定性策略梯度(DDPG)强化学习算法优化PID参数的控制方法,采用分类经验回放的思想,以奖励值大小为标准对经验进行分类存放,根据智能体当前的状态和下一步动作,从相应的经验池中进行采样并训练,并根据PID控制算法的特性设计了合理的奖励函数,改善了强化学习中奖励稀疏的问题,提高了算法的收敛速度与性能。仿真结果表明,与传统PID控制、常规DDPG-PID控制相比,改进DDPG-PID控制缩短了响应时间,降低了超调量,近乎消除了稳态误差,提高了控制性能和系统稳定性。 展开更多
关键词 芯片共晶键合 深度确定性策略梯度(ddpg)算法 强化学习 温度控制 比例-积分-微分(PID)控制
下载PDF
基于态势评估及DDPG算法的一对一空战格斗控制方法
15
作者 贺宝记 白林亭 文鹏程 《航空工程进展》 CSCD 2024年第2期179-187,共9页
已有的空中格斗控制方法未综合考虑基于专家知识的态势评估及通过连续性速度变化控制空战格斗的问题。基于深度确定性策略梯度(DDPG)强化学习算法,在态势评估函数作为强化学习奖励函数的基础上,设计综合考虑飞行高度上下限、飞行过载以... 已有的空中格斗控制方法未综合考虑基于专家知识的态势评估及通过连续性速度变化控制空战格斗的问题。基于深度确定性策略梯度(DDPG)强化学习算法,在态势评估函数作为强化学习奖励函数的基础上,设计综合考虑飞行高度上下限、飞行过载以及飞行速度上下限的强化学习环境;通过全连接的载机速度控制网络与环境奖励网络,实现DDPG算法与学习环境的交互,并根据高度与速度异常、被导弹锁定时间以及格斗时间设计空战格斗结束条件;通过模拟一对一空战格斗,对该格斗控制方法在环境限制学习、态势评估得分以及格斗模式学习进行验证。结果表明:本文提出的空战格斗控制方法有效,能够为自主空战格斗进一步发展提供指导。 展开更多
关键词 强化学习 态势评估 深度确定性策略梯度 空战格斗
下载PDF
基于DDPG的换流站融合终端任务卸载与资源调度方法 被引量:1
16
作者 白巍 张东磊 +2 位作者 付俭定 夏清悦 徐可馨 《电力信息与通信技术》 2024年第3期58-64,共7页
随着电力数字化技术的快速发展,数字换流站作为电力系统的关键组成部分,面临着日益增加的计算压力。针对数字换流站中融合终端的计算业务需求,提出了一种云–边缘–本地三层计算卸载框架。考虑终端设备的移动性,文章以最小化系统总时延... 随着电力数字化技术的快速发展,数字换流站作为电力系统的关键组成部分,面临着日益增加的计算压力。针对数字换流站中融合终端的计算业务需求,提出了一种云–边缘–本地三层计算卸载框架。考虑终端设备的移动性,文章以最小化系统总时延为目标,根据业务需求构建马尔科夫决策模型,采用基于深度确定性策略梯度算法的动态任务卸载优化方法实现对云–边–端三层的总体计算资源和网络资源的最优调度。通过搭建深度强化学习环境并仿真实验,结果表明,所提方案相比于边缘–本地双层卸载方案,系统总时延减少了29.6%。 展开更多
关键词 数字换流站 任务卸载 深度强化学习 深度确定性策略梯度
下载PDF
基于MADDPG的多AGVs路径规划算法
17
作者 尹华一 尤雅丽 +1 位作者 黄新栋 段青娜 《厦门理工学院学报》 2024年第1期37-46,共10页
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函... 针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。 展开更多
关键词 自动导引车系统(AGVs) 路径规划 多智能体深度确定性策略梯度(MAddpg)算法 深度强化学习 多智能体
下载PDF
基于MADDPG的多阵面相控阵雷达引导搜索资源优化算法
18
作者 王腾 黄俊松 +2 位作者 王乐庭 张才坤 李枭扬 《计算机工程》 CAS CSCD 北大核心 2024年第11期38-48,共11页
针对传统单阵面雷达搜索资源优化算法在复杂多阵面场景下的参数求解困难问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多阵面雷达搜索资源优化算法。考虑多阵面相控阵雷达场景约束,结合机载雷达实际搜索任务需求,建立基于最... 针对传统单阵面雷达搜索资源优化算法在复杂多阵面场景下的参数求解困难问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多阵面雷达搜索资源优化算法。考虑多阵面相控阵雷达场景约束,结合机载雷达实际搜索任务需求,建立基于最大目标平均积累期望发现概率的多阵面雷达搜索资源优化模型。分别设计多智能体局部及全局观测空间和带折扣因子的复合奖励函数,基于执行者-评论者(Actor-Critic)算法结构,通过各智能体策略网络在线更新各雷达阵面搜索资源分配系数实现上述模型参数的优化求解。仿真结果表明,该算法能够根据空域-目标覆盖情况及各目标威胁权系数迅速作出精确的自主决策,在多阵面相控阵雷达搜索资源优化场景下的表现显著优于传统算法。 展开更多
关键词 多阵面相控阵雷达 雷达搜索资源优化 多智能体深度强化学习 深度确定性策略梯度 集群目标雷达引导搜索
下载PDF
基于DDPG的高速飞行器预测校正制导律设计
19
作者 王晓威 殷玮 +2 位作者 杨亚 沈昱恒 颜涛 《航天控制》 CSCD 2024年第2期22-28,共7页
针对高速飞行器在再入滑翔过程中的多约束、强时变问题,本文结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的在线自主决策优势,根据威胁区信息,实时生成规避策略来进行动态禁飞区规避航迹规划。进一步为增强... 针对高速飞行器在再入滑翔过程中的多约束、强时变问题,本文结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的在线自主决策优势,根据威胁区信息,实时生成规避策略来进行动态禁飞区规避航迹规划。进一步为增强高速飞行器对环境不确定因素的抗干扰能力,在规避轨迹基础上选取航路特征点集合,采用预测校正在线制导方式,根据飞行任务需求和终端约束,实时校正高速飞行器飞行状态,最终实现高速飞行器精确制导。同时,为验证方法的有效性,开展了相应的数值仿真分析。结果表明,本文方法能够有效规避禁飞区,增强了对不确定因素的适应性,具有一定的工程应用价值。 展开更多
关键词 高速飞行器 禁飞区 ddpg算法 预测校正制导
下载PDF
基于DDPG算法的离网型可再生能源大规模制氢系统优化调度
20
作者 郑庆明 井延伟 +2 位作者 梁涛 柴露露 吕梁年 《综合智慧能源》 CAS 2024年第6期35-43,共9页
为提高可再生能源消纳能力,减少整流和并网等设备的投资成本,降低电解水制氢系统成本,实现可再生能源大规模制氢,构建了一个孤岛型可再生能源大规模制氢系统。该系统通过智慧能量管理,实现了提高系统经济性与安全性的目标。首先建立可... 为提高可再生能源消纳能力,减少整流和并网等设备的投资成本,降低电解水制氢系统成本,实现可再生能源大规模制氢,构建了一个孤岛型可再生能源大规模制氢系统。该系统通过智慧能量管理,实现了提高系统经济性与安全性的目标。首先建立可再生能源大规模制氢系统的仿真模型,制定控制策略;其次,提出一种基于深度确定性策略梯度(DDPG)的能量优化调度策略。通过大量长期的训练,使用DDPG算法得到的智能体能够实现智能化的动态能量优化调度。将该策略与深度Q网络、粒子群优化和传统控制方法在经济性和安全性方面进行比较,结果表明DDPG算法在能量优化管理中可实现更高的经济收益,更好地利用可再生资源,并确保系统的安全运行。 展开更多
关键词 可再生能源 大规模制氢 离网型 深度确定性策略梯度 优化调度
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部