期刊文献+
共找到411篇文章
< 1 2 21 >
每页显示 20 50 100
Policy Gradient Adaptive Dynamic Programming for Model-Free Multi-Objective Optimal Control
1
作者 Hao Zhang Yan Li +2 位作者 Zhuping Wang Yi Ding Huaicheng Yan 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第4期1060-1062,共3页
Dear Editor,In this letter,the multi-objective optimal control problem of nonlinear discrete-time systems is investigated.A data-driven policy gradient algorithm is proposed in which the action-state value function is... Dear Editor,In this letter,the multi-objective optimal control problem of nonlinear discrete-time systems is investigated.A data-driven policy gradient algorithm is proposed in which the action-state value function is used to evaluate the policy.In the policy improvement process,the policy gradient based method is employed. 展开更多
关键词 policy gradient OPTIMAL
下载PDF
Perception Enhanced Deep Deterministic Policy Gradient for Autonomous Driving in Complex Scenarios
2
作者 Lyuchao Liao Hankun Xiao +3 位作者 Pengqi Xing Zhenhua Gan Youpeng He Jiajun Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期557-576,共20页
Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonom... Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonomous driving due to the unpredictable entry and exit of vehicles,susceptibility to traffic flow bottlenecks,and imperfect data in perceiving environmental information,rendering them a vital issue in the practical application of autonomous driving.To address the traffic challenges,this work focused on complex roundabouts with multi-lane and proposed a Perception EnhancedDeepDeterministic Policy Gradient(PE-DDPG)for AutonomousDriving in the Roundabouts.Specifically,themodel incorporates an enhanced variational autoencoder featuring an integrated spatial attention mechanism alongside the Deep Deterministic Policy Gradient framework,enhancing the vehicle’s capability to comprehend complex roundabout environments and make decisions.Furthermore,the PE-DDPG model combines a dynamic path optimization strategy for roundabout scenarios,effectively mitigating traffic bottlenecks and augmenting throughput efficiency.Extensive experiments were conducted with the collaborative simulation platform of CARLA and SUMO,and the experimental results show that the proposed PE-DDPG outperforms the baseline methods in terms of the convergence capacity of the training process,the smoothness of driving and the traffic efficiency with diverse traffic flow patterns and penetration rates of autonomous vehicles(AVs).Generally,the proposed PE-DDPGmodel could be employed for autonomous driving in complex scenarios with imperfect data. 展开更多
关键词 Autonomous driving traffic roundabouts deep deterministic policy gradient spatial attention mechanisms
下载PDF
基于Policy Gradient的机械臂运动跟踪控制器参数整定 被引量:3
3
作者 韩霖骁 胡剑波 +3 位作者 宋仕元 王应洋 贺子厚 张鹏 《系统工程与电子技术》 EI CSCD 北大核心 2021年第9期2605-2611,共7页
针对机械臂运动跟踪控制器的参数自整定问题,设计了一种基于强化学习Policy Gradient法的参数整定器。首先,介绍了机械臂的一种混合动力学模型,根据该系统模型进行了比例微分(proportional-derivative,PD)控制器设计和李雅普诺夫稳定性... 针对机械臂运动跟踪控制器的参数自整定问题,设计了一种基于强化学习Policy Gradient法的参数整定器。首先,介绍了机械臂的一种混合动力学模型,根据该系统模型进行了比例微分(proportional-derivative,PD)控制器设计和李雅普诺夫稳定性证明,并由此给出了参数矩阵的范围。其次,设计了基于Policy Gradient的参数整定器,通过引入积分器的方法对其进行改进,使其控制下的参数行为连续化以进一步提高PD控制器的控制效果。最后,以二阶机械臂系统为例进行了仿真验证。实验数据证明了该参数整定器的有效性和可行性,并能有效提升系统的动态性能。 展开更多
关键词 机械臂 运动跟踪 policy gradient 参数整定 比例微分控制
下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
4
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 Deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
下载PDF
Policy Gradient算法的研究与实现
5
作者 刘俊利 《现代计算机》 2019年第30期3-5,18,共4页
近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术... 近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术,是强化学习的经典算法之一。以policy-based方法开始,然后介绍Policy Gradient算法的具体内容,最终利用深度学习框架TensorFlow完成该算法的实现。 展开更多
关键词 TensorFlow 机器学习 强化学习 policy-Based方法 policy gradient算法
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
6
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
基于融合专家知识DDPG的孤岛微电网频率调节策略
7
作者 黄堃 付明 梁加本 《中国电力》 CSCD 北大核心 2024年第2期194-201,共8页
随着风、光等间歇性新能源接入到孤岛微电网,传统控制方法在进行频率调节时难以有效协同源-荷-储等多种资源以应对源-荷的随机性波动所导致的频率偏差问题。为此,提出了一种融合专家知识与深度确定性策略梯度(DDPG)的孤岛微电网频率调... 随着风、光等间歇性新能源接入到孤岛微电网,传统控制方法在进行频率调节时难以有效协同源-荷-储等多种资源以应对源-荷的随机性波动所导致的频率偏差问题。为此,提出了一种融合专家知识与深度确定性策略梯度(DDPG)的孤岛微电网频率调节算法,通过专家知识的经验规则引导各调控设备与环境高效交互,提升多资源协同频率调节的性能。仿真结果表明所提调频策略能够充分挖掘微网内多种资源的调频潜力,并有效提升调频性能。 展开更多
关键词 孤岛微电网 频率调节 专家知识 深度确定性策略梯度
下载PDF
策略梯度的超启发算法求解带容量约束车辆路径问题
8
作者 张景玲 孙钰粟 +2 位作者 赵燕伟 余孟凡 蒋玉勇 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1111-1122,共12页
有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策... 有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策略梯度算法采用Actor-Critic框架,另外为了能够在后续计算和神经网络参数更新中引用历史经验数据,在确定性策略梯度算法中设计了经验池用于存储状态转移数据.在超启发算法解的接受准则方面,文中通过实验对比了3种接受准则的效果,最终选择了自适应接受准则作为高层策略中解的接受准则.通过对有容量车辆路径问题标准算例的计算,并将求解结果与其他算法对比,验证了所提算法在该问题求解上的有效性和稳定性. 展开更多
关键词 车辆路径问题 强化学习 关策略梯度算法 神经网络 超启发算法
下载PDF
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法
9
作者 宋晓勤 吴志豪 +4 位作者 赖海光 雷磊 张莉涓 吕丹阳 郑成辉 《通信学报》 EI CSCD 北大核心 2024年第10期116-128,共13页
为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。 展开更多
关键词 星地融合网络 深度确定性策略梯度 资源分配 多接入边缘计算
下载PDF
基于DDPG的智能反射面辅助无线携能通信系统性能优化 被引量:1
10
作者 罗丽平 潘伟民 《物联网学报》 2024年第2期46-55,共10页
针对智能反射面(IRS, intelligent reflecting surface)辅助的多输入单输出(MISO, multiple input singleoutput)无线携能通信(SWIPT, simultaneous wireless information and power transfer)系统,考虑基站最大发射功率、IRS反射相移... 针对智能反射面(IRS, intelligent reflecting surface)辅助的多输入单输出(MISO, multiple input singleoutput)无线携能通信(SWIPT, simultaneous wireless information and power transfer)系统,考虑基站最大发射功率、IRS反射相移矩阵的单位膜约束和能量接收器的最小能量约束,以最大化信息传输速率为目标,联合优化了基站处的波束成形向量和智能反射面的反射波束成形向量。为解决非凸优化问题,提出了一种基于深度强化学习的深度确定性策略梯度(DDPG, deep deterministic policy gradient)算法。仿真结果表明,DDPG算法的平均奖励与学习率有关,在选取合适的学习率的条件下,DDPG算法能获得与传统优化算法相近的平均互信息,但运行时间明显低于传统的非凸优化算法,即使增加天线数和反射单元数,DDPG算法依然可以在较短的时间内收敛。这说明DDPG算法能有效地提高计算效率,更适合实时性要求较高的通信业务。 展开更多
关键词 多输入单输出 无线携能通信 智能反射面 波束成形 深度确定性策略梯度
下载PDF
基于蒙特卡罗策略梯度的雷达观测器轨迹规划
11
作者 陈辉 王荆宇 +2 位作者 张文旭 赵永红 席磊 《兰州理工大学学报》 CAS 北大核心 2024年第5期77-85,共9页
在目标跟踪过程的雷达观测器轨迹规划(OTP)中,针对马尔可夫步进规划智能决策问题,在离散动作空间上,提出了一种基于蒙特卡罗策略梯度(MCPG)算法的雷达轨迹规划方法.首先,联合目标跟踪状态、奖励机制、动作方案和雷达观测器位置,将OTP过... 在目标跟踪过程的雷达观测器轨迹规划(OTP)中,针对马尔可夫步进规划智能决策问题,在离散动作空间上,提出了一种基于蒙特卡罗策略梯度(MCPG)算法的雷达轨迹规划方法.首先,联合目标跟踪状态、奖励机制、动作方案和雷达观测器位置,将OTP过程建模为一个连续的马尔可夫决策过程(MDP),提出基于MCPG的全局智能规划方法.其次,将跟踪幕长内的每个时间步作为单独一幕来进行策略更新,提出基于MCPG目标跟踪中观测器轨迹的步进智能规划方法,并深入研究目标的跟踪估计特性,构造以跟踪性能优化为目的的奖励函数.最后,对最优非线性目标跟踪过程中基于强化学习的智能OTP决策仿真实验,表明了所提方法的有效性. 展开更多
关键词 目标跟踪 雷达观测器轨迹规划 策略梯度 奖励函数
下载PDF
一种基于DDPG的变体飞行器智能变形决策方法
12
作者 王青 刘华华 屈东扬 《宇航学报》 EI CAS CSCD 北大核心 2024年第10期1560-1567,共8页
针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算... 针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算法,以获得最优气动特性和制导性能为目标,提出了一种变体飞行器智能变形决策算法;最后,仿真结果表明所提算法收敛效果好,相比于固定外形,可通过合适的变形决策指令在得到最优气动外形的同时获得更好的制导性能。 展开更多
关键词 变体飞行器 自主变形决策 深度强化学习 深度确定性策略梯度算法
下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
13
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(DDPG)
下载PDF
水泥分解炉SNCR脱硝系统的深度强化学习多目标优化控制研究
14
作者 刘定平 吴泽豪 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4815-4825,I0017,共12页
选择性非催化还原(selective non-catalytic reduction,SNCR)脱硝过程的工艺参数优化可以有效减少水泥分解炉NO_(x)排放和脱硝运行成本。以某水泥分解炉为研究对象,建立基于LightGBM的NO_(x)浓度预测模型,以脱硝成本和NO_(x)浓度最小化... 选择性非催化还原(selective non-catalytic reduction,SNCR)脱硝过程的工艺参数优化可以有效减少水泥分解炉NO_(x)排放和脱硝运行成本。以某水泥分解炉为研究对象,建立基于LightGBM的NO_(x)浓度预测模型,以脱硝成本和NO_(x)浓度最小化为优化目标,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法对水泥分解炉掺烧污泥协同SNCR脱硝过程的相关工艺参数进行优化控制建模。结果表明,NO_(x)浓度预测模型均方根误差(root mean squared error,RMSE)为6.8,平均绝对百分比误差(mean absolute percentage error,MAPE)为3.48%;采用DDPG算法可以对相关工艺参数进行优化,喷氨量和污泥掺烧量分别为427.87 L/h和9.78 t/h时,NO_(x)排放浓度为225.99 mg/(Nm^(3)),脱硝运行成本为1 747.8元/h。该优化结果与其他优化算法结果和常规工况对比,NO_(x)排放浓度和脱硝运行成本均呈现不同程度下降;对模型进行仿真及效果验证可知,所建立模型能输出合理的喷氨量和污泥掺烧量组合,减少SNCR出口NO_(x)浓度波动,有效降低NO_(x)排放浓度和脱硝成本,可实现对SNCR脱硝系统的多目标优化控制。该结果可为基于智能算法的水泥分解炉SNCR脱硝的多目标优化控制设计提供一定参考。 展开更多
关键词 喷氨 污泥掺烧 选择性非催化还原优化控制 LightGBM 强化学习 深度确定性策略梯度
下载PDF
MEC网络中基于深度确定策略梯度的能效优化
15
作者 陈卡 《火力与指挥控制》 CSCD 北大核心 2024年第7期44-49,共6页
移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度... 移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度的能效优化算法(deep deterministic policy gradient-based energy efficiency opti-mization,DDPG-EEO)。在满足时延要求的前提下,建立关于任务卸载率和资源分配策略的最大化能效的优化问题。再将优化问题描述成马尔可夫决策过程(Markov decision process,MDP),并利用深度确定策略梯度求解。仿真结果表明,DDPG-EEO算法降低了UTs端的能耗,并提高了任务完成率。 展开更多
关键词 移动边缘计算 任务卸载 资源分配 强化学习 深度确定策略梯度
下载PDF
考虑智能网联车辆影响的八车道高速公路施工区可变限速控制方法
16
作者 过秀成 肖哲 +2 位作者 张一鸣 张叶平 许鹏宇 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期353-359,共7页
为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标... 为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标、瓶颈路段速度标准差为安全指标的复合奖励值,利用深度确定性策略梯度算法,分车道动态求解最佳限速值.仿真结果表明,所提可变限速控制方法在不同智能网联车辆渗漏率条件下均能有效提升交通流运行效率和安全水平,且在智能网联车辆渗漏率较低时,提升效果更加显著.当智能网联车辆渗漏率为1.0时,瓶颈下游路段交通流量提升10.1%,瓶颈路段速度标准差均值下降68.9%;当智能网联车辆渗漏率为0时,瓶颈下游路段交通流量提升20.7%,瓶颈路段速度标准差均值下降78.1%.智能网联车辆的引入能够提升至多52.0%的瓶颈下游路段交通流量. 展开更多
关键词 可变限速控制 深度确定性策略梯度算法 八车道高速公路施工区 智能网联车辆 协同自适应巡航控制
下载PDF
基于PER-PPO2的入侵检测技术
17
作者 黄迎春 任国杰 《沈阳理工大学学报》 CAS 2024年第5期7-13,共7页
随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样... 随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样的近端策略优化裁剪(prioritized experience replay-proximal policy optimization clip, PER-PPO2)算法,基于强化学习实现包裹法特征选择。深度强化学习通过构建以分类器混淆矩阵为基础的奖励函数,使智能体根据奖励反馈选择分类器的较优特征,结合优先经验采样优化算法的训练样本,提高算法的稳定性与收敛性能;使用性能较优的轻量级梯度提升机(LightGBM)作为分类器。使用NSL-KDD数据集对模型进行实验评估,结果表明模型将数据集的41维特征降低为8维时分类F1值达到0.871 3,可以满足入侵检测的要求。 展开更多
关键词 近端策略优化裁剪 优先经验采样 入侵检测 深度强化学习 LightGBM
下载PDF
一种超参数自适应航天器交会变轨策略优化方法
18
作者 孙雷翔 郭延宁 +2 位作者 邓武东 吕跃勇 马广富 《宇航学报》 EI CAS CSCD 北大核心 2024年第1期52-62,共11页
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO... 利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。 展开更多
关键词 地球同步轨道 Lambert变轨 强化学习 粒子群算法 深度确定性策略梯度
下载PDF
基于强化学习的多智能体协同电子对抗方法
19
作者 杨洋 王烨 +3 位作者 康大勇 陈嘉玉 李姜 赵华栋 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第7期1-10,共10页
传统电子战正逐步向融合人工智能技术的智能电子战演变,基于强化学习的多无人机电子协同对抗为主要场景,针对复杂高维的状态动作空间下多智能体强化学习算法不容易收敛问题,提出了一种基于优先经验回放的多智能体双对抗策略梯度算法。... 传统电子战正逐步向融合人工智能技术的智能电子战演变,基于强化学习的多无人机电子协同对抗为主要场景,针对复杂高维的状态动作空间下多智能体强化学习算法不容易收敛问题,提出了一种基于优先经验回放的多智能体双对抗策略梯度算法。该算法通过引入优先经验回放机制,并提出对抗Critic网络和双Critic网络来平衡动作及价值间的关系和减小单一Critic网络估计不确定性的问题。仿真实验结果表明:在同一仿真场景下相较于其他强化学习算法,PerMaD4算法具有更好的收敛效果且任务完成度提高了8.9%。 展开更多
关键词 协同决策 强化学习 策略梯度 电子对抗仿真
下载PDF
基于LSTM车速预测和深度确定性策略梯度的增程式电动汽车能量管理 被引量:1
20
作者 路来伟 赵红 +1 位作者 徐福良 罗勇 《汽车技术》 CSCD 北大核心 2024年第8期27-37,共11页
为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真... 为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真验证了控制策略的实时性。结果表明,采用所提出的LSTM-DDPG能量管理策略相对于DDPG能量管理策略、深度Q网络(DQN)能量管理策略、功率跟随控制策略在世界重型商用车辆瞬态循环(WTVC)工况下的等效燃油消耗量分别减少0.613 kg、0.350 kg、0.607 kg,与采用动态规划控制策略时的等效燃油消耗量仅相差0.128 kg。 展开更多
关键词 增程式电动汽车 长短时记忆神经网络 深度强化学习 深度确定性策略梯度
下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部