期刊文献+
共找到395篇文章
< 1 2 20 >
每页显示 20 50 100
Policy Gradient Adaptive Dynamic Programming for Model-Free Multi-Objective Optimal Control
1
作者 Hao Zhang Yan Li +2 位作者 Zhuping Wang Yi Ding Huaicheng Yan 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第4期1060-1062,共3页
Dear Editor,In this letter,the multi-objective optimal control problem of nonlinear discrete-time systems is investigated.A data-driven policy gradient algorithm is proposed in which the action-state value function is... Dear Editor,In this letter,the multi-objective optimal control problem of nonlinear discrete-time systems is investigated.A data-driven policy gradient algorithm is proposed in which the action-state value function is used to evaluate the policy.In the policy improvement process,the policy gradient based method is employed. 展开更多
关键词 policy gradient OPTIMAL
下载PDF
Perception Enhanced Deep Deterministic Policy Gradient for Autonomous Driving in Complex Scenarios
2
作者 Lyuchao Liao Hankun Xiao +3 位作者 Pengqi Xing Zhenhua Gan Youpeng He Jiajun Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期557-576,共20页
Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonom... Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonomous driving due to the unpredictable entry and exit of vehicles,susceptibility to traffic flow bottlenecks,and imperfect data in perceiving environmental information,rendering them a vital issue in the practical application of autonomous driving.To address the traffic challenges,this work focused on complex roundabouts with multi-lane and proposed a Perception EnhancedDeepDeterministic Policy Gradient(PE-DDPG)for AutonomousDriving in the Roundabouts.Specifically,themodel incorporates an enhanced variational autoencoder featuring an integrated spatial attention mechanism alongside the Deep Deterministic Policy Gradient framework,enhancing the vehicle’s capability to comprehend complex roundabout environments and make decisions.Furthermore,the PE-DDPG model combines a dynamic path optimization strategy for roundabout scenarios,effectively mitigating traffic bottlenecks and augmenting throughput efficiency.Extensive experiments were conducted with the collaborative simulation platform of CARLA and SUMO,and the experimental results show that the proposed PE-DDPG outperforms the baseline methods in terms of the convergence capacity of the training process,the smoothness of driving and the traffic efficiency with diverse traffic flow patterns and penetration rates of autonomous vehicles(AVs).Generally,the proposed PE-DDPGmodel could be employed for autonomous driving in complex scenarios with imperfect data. 展开更多
关键词 Autonomous driving traffic roundabouts deep deterministic policy gradient spatial attention mechanisms
下载PDF
基于Policy Gradient的机械臂运动跟踪控制器参数整定 被引量:3
3
作者 韩霖骁 胡剑波 +3 位作者 宋仕元 王应洋 贺子厚 张鹏 《系统工程与电子技术》 EI CSCD 北大核心 2021年第9期2605-2611,共7页
针对机械臂运动跟踪控制器的参数自整定问题,设计了一种基于强化学习Policy Gradient法的参数整定器。首先,介绍了机械臂的一种混合动力学模型,根据该系统模型进行了比例微分(proportional-derivative,PD)控制器设计和李雅普诺夫稳定性... 针对机械臂运动跟踪控制器的参数自整定问题,设计了一种基于强化学习Policy Gradient法的参数整定器。首先,介绍了机械臂的一种混合动力学模型,根据该系统模型进行了比例微分(proportional-derivative,PD)控制器设计和李雅普诺夫稳定性证明,并由此给出了参数矩阵的范围。其次,设计了基于Policy Gradient的参数整定器,通过引入积分器的方法对其进行改进,使其控制下的参数行为连续化以进一步提高PD控制器的控制效果。最后,以二阶机械臂系统为例进行了仿真验证。实验数据证明了该参数整定器的有效性和可行性,并能有效提升系统的动态性能。 展开更多
关键词 机械臂 运动跟踪 policy gradient 参数整定 比例微分控制
下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
4
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 Deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
下载PDF
Policy Gradient算法的研究与实现
5
作者 刘俊利 《现代计算机》 2019年第30期3-5,18,共4页
近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术... 近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术,是强化学习的经典算法之一。以policy-based方法开始,然后介绍Policy Gradient算法的具体内容,最终利用深度学习框架TensorFlow完成该算法的实现。 展开更多
关键词 TensorFlow 机器学习 强化学习 policy-Based方法 policy gradient算法
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
6
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
策略梯度的超启发算法求解带容量约束车辆路径问题
7
作者 张景玲 孙钰粟 +2 位作者 赵燕伟 余孟凡 蒋玉勇 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1111-1122,共12页
有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策... 有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策略梯度算法采用Actor-Critic框架,另外为了能够在后续计算和神经网络参数更新中引用历史经验数据,在确定性策略梯度算法中设计了经验池用于存储状态转移数据.在超启发算法解的接受准则方面,文中通过实验对比了3种接受准则的效果,最终选择了自适应接受准则作为高层策略中解的接受准则.通过对有容量车辆路径问题标准算例的计算,并将求解结果与其他算法对比,验证了所提算法在该问题求解上的有效性和稳定性. 展开更多
关键词 车辆路径问题 强化学习 关策略梯度算法 神经网络 超启发算法
下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
8
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(DDPG)
下载PDF
水泥分解炉SNCR脱硝系统的深度强化学习多目标优化控制研究
9
作者 刘定平 吴泽豪 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4815-4825,I0017,共12页
选择性非催化还原(selective non-catalytic reduction,SNCR)脱硝过程的工艺参数优化可以有效减少水泥分解炉NO_(x)排放和脱硝运行成本。以某水泥分解炉为研究对象,建立基于LightGBM的NO_(x)浓度预测模型,以脱硝成本和NO_(x)浓度最小化... 选择性非催化还原(selective non-catalytic reduction,SNCR)脱硝过程的工艺参数优化可以有效减少水泥分解炉NO_(x)排放和脱硝运行成本。以某水泥分解炉为研究对象,建立基于LightGBM的NO_(x)浓度预测模型,以脱硝成本和NO_(x)浓度最小化为优化目标,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法对水泥分解炉掺烧污泥协同SNCR脱硝过程的相关工艺参数进行优化控制建模。结果表明,NO_(x)浓度预测模型均方根误差(root mean squared error,RMSE)为6.8,平均绝对百分比误差(mean absolute percentage error,MAPE)为3.48%;采用DDPG算法可以对相关工艺参数进行优化,喷氨量和污泥掺烧量分别为427.87 L/h和9.78 t/h时,NO_(x)排放浓度为225.99 mg/(Nm^(3)),脱硝运行成本为1 747.8元/h。该优化结果与其他优化算法结果和常规工况对比,NO_(x)排放浓度和脱硝运行成本均呈现不同程度下降;对模型进行仿真及效果验证可知,所建立模型能输出合理的喷氨量和污泥掺烧量组合,减少SNCR出口NO_(x)浓度波动,有效降低NO_(x)排放浓度和脱硝成本,可实现对SNCR脱硝系统的多目标优化控制。该结果可为基于智能算法的水泥分解炉SNCR脱硝的多目标优化控制设计提供一定参考。 展开更多
关键词 喷氨 污泥掺烧 选择性非催化还原优化控制 LightGBM 强化学习 深度确定性策略梯度
下载PDF
考虑智能网联车辆影响的八车道高速公路施工区可变限速控制方法
10
作者 过秀成 肖哲 +2 位作者 张一鸣 张叶平 许鹏宇 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期353-359,共7页
为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标... 为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标、瓶颈路段速度标准差为安全指标的复合奖励值,利用深度确定性策略梯度算法,分车道动态求解最佳限速值.仿真结果表明,所提可变限速控制方法在不同智能网联车辆渗漏率条件下均能有效提升交通流运行效率和安全水平,且在智能网联车辆渗漏率较低时,提升效果更加显著.当智能网联车辆渗漏率为1.0时,瓶颈下游路段交通流量提升10.1%,瓶颈路段速度标准差均值下降68.9%;当智能网联车辆渗漏率为0时,瓶颈下游路段交通流量提升20.7%,瓶颈路段速度标准差均值下降78.1%.智能网联车辆的引入能够提升至多52.0%的瓶颈下游路段交通流量. 展开更多
关键词 可变限速控制 深度确定性策略梯度算法 八车道高速公路施工区 智能网联车辆 协同自适应巡航控制
下载PDF
基于PER-PPO2的入侵检测技术
11
作者 黄迎春 任国杰 《沈阳理工大学学报》 CAS 2024年第5期7-13,共7页
随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样... 随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样的近端策略优化裁剪(prioritized experience replay-proximal policy optimization clip, PER-PPO2)算法,基于强化学习实现包裹法特征选择。深度强化学习通过构建以分类器混淆矩阵为基础的奖励函数,使智能体根据奖励反馈选择分类器的较优特征,结合优先经验采样优化算法的训练样本,提高算法的稳定性与收敛性能;使用性能较优的轻量级梯度提升机(LightGBM)作为分类器。使用NSL-KDD数据集对模型进行实验评估,结果表明模型将数据集的41维特征降低为8维时分类F1值达到0.871 3,可以满足入侵检测的要求。 展开更多
关键词 近端策略优化裁剪 优先经验采样 入侵检测 深度强化学习 LightGBM
下载PDF
基于DDPG的智能反射面辅助无线携能通信系统性能优化
12
作者 罗丽平 潘伟民 《物联网学报》 2024年第2期46-55,共10页
针对智能反射面(IRS, intelligent reflecting surface)辅助的多输入单输出(MISO, multiple input singleoutput)无线携能通信(SWIPT, simultaneous wireless information and power transfer)系统,考虑基站最大发射功率、IRS反射相移... 针对智能反射面(IRS, intelligent reflecting surface)辅助的多输入单输出(MISO, multiple input singleoutput)无线携能通信(SWIPT, simultaneous wireless information and power transfer)系统,考虑基站最大发射功率、IRS反射相移矩阵的单位膜约束和能量接收器的最小能量约束,以最大化信息传输速率为目标,联合优化了基站处的波束成形向量和智能反射面的反射波束成形向量。为解决非凸优化问题,提出了一种基于深度强化学习的深度确定性策略梯度(DDPG, deep deterministic policy gradient)算法。仿真结果表明,DDPG算法的平均奖励与学习率有关,在选取合适的学习率的条件下,DDPG算法能获得与传统优化算法相近的平均互信息,但运行时间明显低于传统的非凸优化算法,即使增加天线数和反射单元数,DDPG算法依然可以在较短的时间内收敛。这说明DDPG算法能有效地提高计算效率,更适合实时性要求较高的通信业务。 展开更多
关键词 多输入单输出 无线携能通信 智能反射面 波束成形 深度确定性策略梯度
下载PDF
一种超参数自适应航天器交会变轨策略优化方法
13
作者 孙雷翔 郭延宁 +2 位作者 邓武东 吕跃勇 马广富 《宇航学报》 EI CAS CSCD 北大核心 2024年第1期52-62,共11页
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO... 利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。 展开更多
关键词 地球同步轨道 Lambert变轨 强化学习 粒子群算法 深度确定性策略梯度
下载PDF
基于强化学习的多智能体协同电子对抗方法
14
作者 杨洋 王烨 +3 位作者 康大勇 陈嘉玉 李姜 赵华栋 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第7期1-10,共10页
传统电子战正逐步向融合人工智能技术的智能电子战演变,基于强化学习的多无人机电子协同对抗为主要场景,针对复杂高维的状态动作空间下多智能体强化学习算法不容易收敛问题,提出了一种基于优先经验回放的多智能体双对抗策略梯度算法。... 传统电子战正逐步向融合人工智能技术的智能电子战演变,基于强化学习的多无人机电子协同对抗为主要场景,针对复杂高维的状态动作空间下多智能体强化学习算法不容易收敛问题,提出了一种基于优先经验回放的多智能体双对抗策略梯度算法。该算法通过引入优先经验回放机制,并提出对抗Critic网络和双Critic网络来平衡动作及价值间的关系和减小单一Critic网络估计不确定性的问题。仿真实验结果表明:在同一仿真场景下相较于其他强化学习算法,PerMaD4算法具有更好的收敛效果且任务完成度提高了8.9%。 展开更多
关键词 协同决策 强化学习 策略梯度 电子对抗仿真
下载PDF
基于融合专家知识DDPG的孤岛微电网频率调节策略
15
作者 黄堃 付明 梁加本 《中国电力》 CSCD 北大核心 2024年第2期194-201,共8页
随着风、光等间歇性新能源接入到孤岛微电网,传统控制方法在进行频率调节时难以有效协同源-荷-储等多种资源以应对源-荷的随机性波动所导致的频率偏差问题。为此,提出了一种融合专家知识与深度确定性策略梯度(DDPG)的孤岛微电网频率调... 随着风、光等间歇性新能源接入到孤岛微电网,传统控制方法在进行频率调节时难以有效协同源-荷-储等多种资源以应对源-荷的随机性波动所导致的频率偏差问题。为此,提出了一种融合专家知识与深度确定性策略梯度(DDPG)的孤岛微电网频率调节算法,通过专家知识的经验规则引导各调控设备与环境高效交互,提升多资源协同频率调节的性能。仿真结果表明所提调频策略能够充分挖掘微网内多种资源的调频潜力,并有效提升调频性能。 展开更多
关键词 孤岛微电网 频率调节 专家知识 深度确定性策略梯度
下载PDF
基于策略梯度Informer模型的滚动轴承剩余寿命预测
16
作者 熊佳豪 李锋 +2 位作者 汤宝平 汪永超 罗玲 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第4期273-286,共14页
典型的编码器-解码器——Transformer存在二次时间复杂度、高内存使用及模型结构复杂等固有限制,造成Transformer用于滚动轴承剩余寿命(RUL)预测会表现出较低预测精度和较低计算效率的问题。为此,提出一种新型编解码器——策略梯度Infor... 典型的编码器-解码器——Transformer存在二次时间复杂度、高内存使用及模型结构复杂等固有限制,造成Transformer用于滚动轴承剩余寿命(RUL)预测会表现出较低预测精度和较低计算效率的问题。为此,提出一种新型编解码器——策略梯度Informer(PG-Informer)模型,并将其应用于滚动轴承RUL预测。首先,在PG-In-former的新型编解码器体系结构——Informer中设计了概率稀疏自注意力(PSSA)机制替代Transformer中原有的自注意力机制,以提高非线性逼近能力并减少时间和空间复杂度;然后,PG-Informer采用自注意力蒸馏(SAD)操作减少参数维度和参数量,并提高了对时间序列的预测鲁棒性;此外,PG-Informer的生成式解码器对解码输入进行一步解码输出预测结果,无需动态多步解码,提升了对时间序列的预测速度;最后,构造了策略梯度学习算法来提高对PG-Informer参数的训练速度。PG-Informer的以上优势使所提出的基于PG-Informer模型的滚动轴承RUL预测方法可以获得较高的预测精度、较好的鲁棒性和较高的计算效率。对辛辛那提大学智能维护系统中心的1号滚动轴承的RUL预测实验结果表明,所提出方法预测得到的RUL值为963min,其RUL预测误差仅为6.50%,比基于Transformer的RUL预测方法预测精度更高、预测误差更小、鲁棒性更好;所提出方法所耗费的RUL预测时间仅为132.37s,比基于Transformer的RUL预测方法的预测时间更短。以上实验结果验证了所提出方法的有效性。 展开更多
关键词 Informer模型 概率稀疏自注意力机制 策略梯度 滚动轴承 剩余寿命预测
下载PDF
深度确定性策略梯度下运动目标识别及无人机跟随
17
作者 刘欣 张倩飞 +1 位作者 刘成宇 高涵 《西安工程大学学报》 CAS 2024年第4期9-17,共9页
针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy... 针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法UAV跟随方法。面向高速公路的车辆目标,分析了UAV高度、位姿与高速车辆运动之间的关系,建立了移动平台目标检测帧率的速度自适应模型,根据目标的运动状态计算能够相匹配UAV的飞行状态,实时修正飞行姿态与速度,使UAV能够保持与目标的相对位置和角度。继而基于DDPG算法价值网络估计UAV在不同状态下采取特定动作的价值,策略网络生成UAV在给定状态下采取动作的策略,给予UAV飞行高度、速度控制参数用于目标跟踪,使UAV能够根据目标的运动变化自动调节飞行状态,实现运动目标的自适应跟随。仿真实验表明:DDPG算法能够提供稳定的飞行姿态数据,为UAV的跟随任务提供了可靠的控制基础;通过在真实场景下实验验证,UAV能够实时跟踪速度范围0~33 m/s、半径为120 m的圆形面积内的地面运动目标,且在续航范围内能够实现持续稳定跟随。 展开更多
关键词 四轴飞行器 高速公路 动态规划 深度确定性策略梯度 目标跟踪
下载PDF
基于联邦强化学习的电热综合能源系统能量管理策略
18
作者 王金锋 王琪 +3 位作者 任正某 孙晓晨 孙毅 赵一伊 《上海交通大学学报》 EI CAS CSCD 北大核心 2024年第6期904-915,共12页
电热综合能源系统(IES)的能量管理关系到园区的经济效益与多能互补能力,但面临新能源出力随机性和用户负荷不确定性的挑战.首先,构建电热IES能量管理问题的数学模型,将各供能子系统赋能为智能体,基于深度确定性策略梯度(DDPG)算法建立... 电热综合能源系统(IES)的能量管理关系到园区的经济效益与多能互补能力,但面临新能源出力随机性和用户负荷不确定性的挑战.首先,构建电热IES能量管理问题的数学模型,将各供能子系统赋能为智能体,基于深度确定性策略梯度(DDPG)算法建立综合考虑子系统实时用能负荷、分时电价及各设备出力的系统能量管理模型.然后,采用联邦学习技术,在训练过程中交互3个子系统的能量管理模型梯度参数对模型的训练效果进行协同优化,打破数据壁垒的同时保护各子系统数据隐私.最后,通过算例分析验证了所构建基于联邦学习框架的DDPG能量管理模型能有效提升园区IES经济效益. 展开更多
关键词 综合能源系统 联邦学习 能量管理 深度确定性策略梯度
下载PDF
基于深度强化学习的无人驾驶路径规划研究
19
作者 赵天亮 张小俊 +1 位作者 张明路 陈建文 《河北工业大学学报》 CAS 2024年第4期21-30,共10页
针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时出现收敛不稳定、学习效率低等问题,提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG_DDPG)算法。该算法在回合内创建优秀... 针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时出现收敛不稳定、学习效率低等问题,提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG_DDPG)算法。该算法在回合内创建优秀经验集合,便于指导智能汽车充分利用过往有效信息,得到稳定的控制策略;采用基于奖励的优先经验回放机制,打破数据之间的关联性,提高数据的利用率,减少搜索过程的盲目性,提高算法的收敛稳定性。基于ROS(Robot Operating System)操作系统对算法进行了验证。在Gazebo建模软件中,设计了智能汽车模型以及障碍物环境,利用决策算法规划智能汽车的安全行驶路径。数据结果验证了RG_DDPG算法在处理路径规划任务的有效性,相比于DDPG算法,改进后智能汽车的车速能够提升60.5%,获取奖励提升一倍多,算法的收敛稳定性更好。最后通过实车实验验证了该算法的实用性。 展开更多
关键词 智能汽车 无人驾驶 路径规划 深度确定性策略梯度 奖励指导
下载PDF
变分资格迹元强化循环网络用于空间滚动轴承剩余寿命预测
20
作者 姜沛轩 李锋 +1 位作者 汤宝平 汪永超 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期2159-2171,共13页
针对经典时间循环神经网络(SRNNs)在预测时间序列中存在长时依赖的缺陷,同时由于遍历整个训练数据集进行现有监督式学习增加了时间复杂度,造成SRNNs在预测空间滚动轴承剩余寿命中存在预测精度和计算效率较低的问题,提出一种变分资格迹... 针对经典时间循环神经网络(SRNNs)在预测时间序列中存在长时依赖的缺陷,同时由于遍历整个训练数据集进行现有监督式学习增加了时间复杂度,造成SRNNs在预测空间滚动轴承剩余寿命中存在预测精度和计算效率较低的问题,提出一种变分资格迹元强化循环网络(VETMRRN)。在VETMRRN中,构建新型时间循环网络结构以增大历史信息记忆量,并设计基于神谕门机制的元学习超参数自初始化网络来加速搜索VETMRRN的最优回顾序列长度;设计含有资格迹算子的变分自编码元策略梯度学习算法,以提高对VETMRRN参数的训练速度和全局优化效果。在此基础上提出基于VETMRRN的空间滚动轴承剩余寿命预测方法。首先采用Shapely值特征融合提取空间滚动轴承的性能退化特征;然后将性能退化特征输入VETMRRN中预测性能退化特征趋势;最后建立威布尔分布可靠度模型来预测空间滚动轴承的剩余寿命。该方法具有较高的预测精度、较好的泛化性能和较高的计算效率。最后通过空间滚动轴承剩余寿命预测实例证明了该方法的有效性。 展开更多
关键词 元学习时间循环网络 神谕门机制 元策略梯度 空间滚动轴承 剩余寿命预测
下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部