期刊文献+
共找到145篇文章
< 1 2 8 >
每页显示 20 50 100
Sampled-data control through model-free reinforcement learning with effective experience replay 被引量:2
1
作者 Bo Xiao H.K.Lam +4 位作者 Xiaojie Su Ziwei Wang Frank P.-W.Lo Shihong Chen Eric Yeatman 《Journal of Automation and Intelligence》 2023年第1期20-30,共11页
Reinforcement Learning(RL)based control algorithms can learn the control strategies for nonlinear and uncertain environment during interacting with it.Guided by the rewards generated by environment,a RL agent can lear... Reinforcement Learning(RL)based control algorithms can learn the control strategies for nonlinear and uncertain environment during interacting with it.Guided by the rewards generated by environment,a RL agent can learn the control strategy directly in a model-free way instead of investigating the dynamic model of the environment.In the paper,we propose the sampled-data RL control strategy to reduce the computational demand.In the sampled-data control strategy,the whole control system is of a hybrid structure,in which the plant is of continuous structure while the controller(RL agent)adopts a discrete structure.Given that the continuous states of the plant will be the input of the agent,the state–action value function is approximated by the fully connected feed-forward neural networks(FCFFNN).Instead of learning the controller at every step during the interaction with the environment,the learning and acting stages are decoupled to learn the control strategy more effectively through experience replay.In the acting stage,the most effective experience obtained during the interaction with the environment will be stored and during the learning stage,the stored experience will be replayed to customized times,which helps enhance the experience replay process.The effectiveness of proposed approach will be verified by simulation examples. 展开更多
关键词 Reinforcement learning Neural networks Sampled-data control MODEL-FREE Effective experience replay
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究
2
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
基于PER-PPO2的入侵检测技术
3
作者 黄迎春 任国杰 《沈阳理工大学学报》 CAS 2024年第5期7-13,共7页
随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样... 随着万物信息化与智能化的快速发展,网络攻击范围不断扩大。传统的入侵检测算法,如主成分分析(PCA)结合随机森林和K近邻等,由于网络数据繁多,特征提取能力较差,分类准确率低。针对上述问题,提出一种新的入侵检测技术,称为优先经验采样的近端策略优化裁剪(prioritized experience replay-proximal policy optimization clip, PER-PPO2)算法,基于强化学习实现包裹法特征选择。深度强化学习通过构建以分类器混淆矩阵为基础的奖励函数,使智能体根据奖励反馈选择分类器的较优特征,结合优先经验采样优化算法的训练样本,提高算法的稳定性与收敛性能;使用性能较优的轻量级梯度提升机(LightGBM)作为分类器。使用NSL-KDD数据集对模型进行实验评估,结果表明模型将数据集的41维特征降低为8维时分类F1值达到0.871 3,可以满足入侵检测的要求。 展开更多
关键词 近端策略优化裁剪 优先经验采样 入侵检测 深度强化学习 LightGBM
下载PDF
Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge 被引量:16
4
作者 Lan Jiang Hongyun Huang Zuohua Ding 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2020年第4期1179-1189,共11页
Path planning and obstacle avoidance are two challenging problems in the study of intelligent robots. In this paper, we develop a new method to alleviate these problems based on deep Q-learning with experience replay ... Path planning and obstacle avoidance are two challenging problems in the study of intelligent robots. In this paper, we develop a new method to alleviate these problems based on deep Q-learning with experience replay and heuristic knowledge. In this method, a neural network has been used to resolve the "curse of dimensionality" issue of the Q-table in reinforcement learning. When a robot is walking in an unknown environment, it collects experience data which is used for training a neural network;such a process is called experience replay.Heuristic knowledge helps the robot avoid blind exploration and provides more effective data for training the neural network. The simulation results show that in comparison with the existing methods, our method can converge to an optimal action strategy with less time and can explore a path in an unknown environment with fewer steps and larger average reward. 展开更多
关键词 Deep Q-learning(DQL) experience replay(er) heuristic knowledge(HK) path planning
下载PDF
COURIER:基于非抢占式优先排队和优先经验重放DRL的边缘计算任务调度与卸载方法
5
作者 杨秀文 崔允贺 +2 位作者 钱清 郭春 申国伟 《计算机科学》 CSCD 北大核心 2024年第5期293-305,共13页
边缘计算(Edge Computing,EC)将计算、存储等资源部署在网络边缘,以满足业务对时延和能耗的要求。计算卸载是EC中的关键技术之一。现有的计算卸载方法在估计任务排队时延时使用M/M/1/∞/∞/FCFS或M/M/n/∞/∞/FCFS排队模型,未考虑高时... 边缘计算(Edge Computing,EC)将计算、存储等资源部署在网络边缘,以满足业务对时延和能耗的要求。计算卸载是EC中的关键技术之一。现有的计算卸载方法在估计任务排队时延时使用M/M/1/∞/∞/FCFS或M/M/n/∞/∞/FCFS排队模型,未考虑高时延敏感型任务的优先执行问题,使得一些对时延要求不敏感的计算任务长期占用计算资源,导致系统的时延开销过大。此外,现有的经验重放方法大多采用随机采样方式,该方式不能区分经验的优劣,造成经验利用率低,神经网络收敛速度慢。基于确定性策略深度强化学习(Deep Reinforcement Learning,DRL)的计算卸载方法存在智能体对环境的探索能力弱和鲁棒性低等问题,降低了求解计算卸载问题的精度。为解决以上问题,考虑边缘计算中多任务移动设备、多边缘服务器的计算卸载场景,以最小化系统时延和能耗联合开销为目标,研究任务调度与卸载决策问题,并提出了基于非抢占式优先排队和优先经验重放DRL的计算卸载方法(Computation Offloading qUeuing pRioritIzed Experience Replay DRL,COURIER)。COURIER针对任务调度问题,设计了非抢占式优先排队模型(M/M/n/∞/∞/NPR)以优化任务的排队时延;针对卸载决策问题,基于软演员-评论家(Soft Actor Critic,SAC)提出了优先经验重放SAC的卸载决策机制,该机制在目标函数中加入信息熵,使智能体采取随机策略,同时优化机制中的经验采样方式以加快网络的收敛速度。仿真实验结果表明,COURIER能有效降低EC系统时延和能耗联合开销。 展开更多
关键词 边缘计算 计算卸载 非抢占式优先排队 信息熵 深度强化学习 优先经验重放
下载PDF
A Data-Based Feedback Relearning Algorithm for Uncertain Nonlinear Systems 被引量:1
6
作者 Chaoxu Mu Yong Zhang +2 位作者 Guangbin Cai Ruijun Liu Changyin Sun 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2023年第5期1288-1303,共16页
In this paper,a data-based feedback relearning algorithm is proposed for the robust control problem of uncertain nonlinear systems.Motivated by the classical on-policy and off-policy algorithms of reinforcement learni... In this paper,a data-based feedback relearning algorithm is proposed for the robust control problem of uncertain nonlinear systems.Motivated by the classical on-policy and off-policy algorithms of reinforcement learning,the online feedback relearning(FR)algorithm is developed where the collected data includes the influence of disturbance signals.The FR algorithm has better adaptability to environmental changes(such as the control channel disturbances)compared with the off-policy algorithm,and has higher computational efficiency and better convergence performance compared with the on-policy algorithm.Data processing based on experience replay technology is used for great data efficiency and convergence stability.Simulation experiments are presented to illustrate convergence stability,optimality and algorithmic performance of FR algorithm by comparison. 展开更多
关键词 Data episodes experience replay neural networks reinforcement learning(RL) uncertain systems
下载PDF
基于威胁机制-双重深度Q网络的多功能雷达认知干扰决策
7
作者 黄湘松 查力根 潘大鹏 《应用科技》 CAS 2024年第4期145-153,共9页
针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威... 针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威胁网络和经验回放2种机制。为了验证算法的有效性,在考虑多功能雷达(multifunctional radar,MFR)工作状态与干扰样式之间的关联性的前提下,搭建了基于认知电子战的仿真环境,分析了雷达与干扰机之间的对抗博弈过程,并且在使用TW-DDQN进行训练的过程中,讨论了威胁半径与威胁步长参数的不同对训练过程的影响。仿真实验结果表明,干扰机通过自主学习成功与雷达进行了长时间的博弈,有80%的概率成功突防,训练效果明显优于传统DQN和优先经验回放DDQN(prioritized experience replay-DDQN,PER-DDQN)。 展开更多
关键词 干扰决策 认知电子战 深度Q网络 强化学习 干扰机 多功能雷达 经验回放 恒虚警率探测
下载PDF
一种基于深度Q网络改进的低轨卫星路由算法
8
作者 许向阳 彭文鑫 李京阳 《现代信息科技》 2024年第1期67-70,76,共5页
针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参... 针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参数。同时设置优先经验回放机制,使得算法训练中学习价值最高的样本;最后对网络进行参数的设置并且进行训练。仿真结果表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升,能有效地适应卫星节点之间链路状态高动态变化。 展开更多
关键词 卫星路由 虚拟节点 优先经验回放 深度Q网络
下载PDF
基于优势后见经验回放的强化学习导航方法
9
作者 王少桐 况立群 +2 位作者 韩慧妍 熊风光 薛红新 《计算机工程》 CSCD 北大核心 2024年第1期313-319,共7页
目前强化学习在移动机器人领域表现出了强大的潜力,将强化学习算法与机器人导航相结合,不需要依赖先验知识就可以实现移动机器人的自主导航,但是在机器人强化学习过程中存在样本利用率低且泛化能力不强的问题。针对上述问题,在D3QN算法... 目前强化学习在移动机器人领域表现出了强大的潜力,将强化学习算法与机器人导航相结合,不需要依赖先验知识就可以实现移动机器人的自主导航,但是在机器人强化学习过程中存在样本利用率低且泛化能力不强的问题。针对上述问题,在D3QN算法的基础上提出优势后见经验回放算法用于经验样本的回放。首先计算轨迹样本中轨迹点的优势函数值,选择优势函数最大值的点作为目标点,然后对轨迹样本进行重新标记,将新旧轨迹样本一同放入经验池中增加经验样本的多样性,使智能体利用失败的经验样本学习,更高效地实现到目标点的导航。为评估该方法的有效性,基于Gazebo平台搭建不同的实验环境,并采用TurtleBot3机器人在仿真环境下进行导航训练与迁移测试,结果表明,该算法在训练环境下导航成功率高于当前主流算法,在迁移测试环境中导航成功率可达86.33%,能够有效提高导航样本利用率,降低导航策略学习难度,增强移动机器人在不同环境中的自主导航能力和迁移泛化能力。 展开更多
关键词 强化学习 移动机器人 后见经验回放 神经网络 样本利用率
下载PDF
深度强化学习的通用插件研究综述
10
作者 钟欣见 王永华 李明 《河北科技大学学报》 CAS 北大核心 2024年第4期362-372,共11页
深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在... 深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。 展开更多
关键词 人工智能理论 通用插件 深度强化学习 模型设计 内在奖励 经验回放 自我博弈
下载PDF
采用ER阻尼器作斜拉索半主动振动控制的试验研究 被引量:7
11
作者 陈勇 孙炳楠 +2 位作者 楼文娟 倪一清 高赞明 《土木工程学报》 EI CSCD 北大核心 2004年第1期50-55,共6页
提出了基于ER/MR阻尼器的半主动控制算法对斜拉索进行振动控制,并进行了振动控制试验。该算法建立在离散时间系统的基础上,并考虑了EP/MR阻尼器的力学特性而发展起来的,因此具有很大的应用价值。首先通过模态降阶的理论,减少了系统的自... 提出了基于ER/MR阻尼器的半主动控制算法对斜拉索进行振动控制,并进行了振动控制试验。该算法建立在离散时间系统的基础上,并考虑了EP/MR阻尼器的力学特性而发展起来的,因此具有很大的应用价值。首先通过模态降阶的理论,减少了系统的自由度数目,使系统更易于控制。在阻尼器采用Bingham模型的半主动控制策略的基础上,应用更符合阻尼器实际力学特性的双粘性模型,提出了相应的改进办法。然后在试验室建立了缩尺比为1∶12的一根12m长的斜拉索试验模型,考虑到ER阻尼器与MR阻尼器具有相似的力学特性,选用ER阻尼器作为作动器,完成了斜拉索半主动振动控制的试验研究,并与理论结果进行了比较,两者吻合良好。 展开更多
关键词 斜拉索 er/MR阻尼器 振动控制 半主动振动控制 振动控制试验
下载PDF
基于记忆提炼的对比度量增强在线类增量学习图像分类方法
12
作者 王宏辉 殷进勇 杨建 《指挥控制与仿真》 2024年第1期44-54,共11页
图像分类中类增量学习具有知识灾难性遗忘现象,现有的基于经验回放方法着重考虑的是记忆库的更新和采样方式,忽略了新旧样本之间的特征关系。为此,提出了一种基于记忆提炼的对比度量增强在线类增量学习图像分类方法(cME 2),设计了两种... 图像分类中类增量学习具有知识灾难性遗忘现象,现有的基于经验回放方法着重考虑的是记忆库的更新和采样方式,忽略了新旧样本之间的特征关系。为此,提出了一种基于记忆提炼的对比度量增强在线类增量学习图像分类方法(cME 2),设计了两种新的正负样本对,对旧样本信息进行了加强重复再利用,强化了模型对冗余特征和共性特征的表达能力,基于最近邻均值分类器改善了嵌入空间中的样本分布合理性。最后,通过对比实验和消融实验验证了所提方法的有效性和高效性。 展开更多
关键词 在线类增量学习 灾难性遗忘 对比学习 经验回放
下载PDF
带有惩罚措施的自竞争事后经验重播算法
13
作者 王子豪 钱雪忠 宋威 《计算机科学与探索》 CSCD 北大核心 2024年第5期1223-1231,共9页
自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大... 自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略。HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型。但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大量重复数据,这些无效数据会对经验池造成污染;二是虚拟目标可能会随机选择到一些对完成任务没有帮助的中间状态,导致学习偏差。针对这些问题,SCHER算法提出了两个改进策略:一是增加自适应的奖励信号,对智能体做出的无意义动作进行惩罚,使其快速规避此类操作;二是使用自竞争策略,通过竞争产生针对同一任务下的两组不同数据,对比分析后找到使智能体在不同环境中成功的关键步骤,提高生成虚拟目标的准确程度。实验结果表明,SCHER算法可以更好地利用经验回放技术,将平均任务成功率提高5.7个百分点,拥有更高的准确率和泛化能力。 展开更多
关键词 深度强化学习 稀疏奖励 经验回放 自适应奖励信号
下载PDF
规则耦合下的多异构子网络MADDPG博弈对抗算法
14
作者 张钰欣 赵恩娇 赵玉新 《智能系统学报》 CSCD 北大核心 2024年第1期190-208,共19页
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模... 针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。 展开更多
关键词 深度强化学习 多无人机 博弈对抗 MADDPG Actor-Critic 规则耦合 经验回放 稀疏奖励
下载PDF
基于改进TD3的综合能源优化调度研究
15
作者 李健明 成贵学 +1 位作者 靳文星 蒋明喆 《计算机仿真》 2024年第6期108-113,共6页
针对综合能源系统的经济优化调度问题,提出一种基于优先经验回放机制与绝对均值法的双延迟深度确定性策略梯度算法(TD3),优先经验回放机制通过区分样本价值,优化采样过程,绝对均值法计算TD误差,确保样本价值的可靠性。以系统总运行成本... 针对综合能源系统的经济优化调度问题,提出一种基于优先经验回放机制与绝对均值法的双延迟深度确定性策略梯度算法(TD3),优先经验回放机制通过区分样本价值,优化采样过程,绝对均值法计算TD误差,确保样本价值的可靠性。以系统总运行成本为指标,构建系统调度模型,并设计环境状态、调度动作和奖励函数。采用某高校微电网算例仿真,结果表明所提算法较TD3算法、深度确定性策略梯度算法(DDPG)和CPLEX求解器能更有效的协调设备出力,提升系统的经济性。 展开更多
关键词 深度强化学习 综合能源系统 绝对均值 优先经验回放
下载PDF
SDCN中基于深度强化学习的移动边缘计算任务卸载算法研究
16
作者 蒋守花 王以伍 《电信科学》 北大核心 2024年第2期96-106,共11页
随着网络技术的不断发展,基于Fat-Tree的网络拓扑结构分布式网络控制模式逐渐显露出其局限性,软件定义数据中心网络(software-defined data center network,SDCN)技术作为Fat-Tree网络拓扑的改进技术,受到越来越多研究者的关注。首先搭... 随着网络技术的不断发展,基于Fat-Tree的网络拓扑结构分布式网络控制模式逐渐显露出其局限性,软件定义数据中心网络(software-defined data center network,SDCN)技术作为Fat-Tree网络拓扑的改进技术,受到越来越多研究者的关注。首先搭建了一个SDCN中的边缘计算架构和基于移动边缘计算(mobileedge computing,MEC)平台三层服务架构的任务卸载模型,结合移动边缘计算平台的实际应用场景,利用同策略经验回放和熵正则改进传统的深度Q网络(deep Q-leaning network,DQN)算法,优化了MEC平台的任务卸载策略,并设计了实验对基于同策略经验回放和熵正则的改进深度Q网络算法(improved DQN algorithm based on same strategy empirical playback and entropy regularization,RSS2E-DQN)和其他3种算法在负载均衡、能耗、时延、网络使用量几个方面进行对比分析,验证了改进算法在上述4个方面具有更优越的性能。 展开更多
关键词 软件定义数据中心网络 深度强化学习 边缘计算任务卸载 同策略经验回放 熵正则
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
17
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层双确定性策略梯度
下载PDF
面向平层多房间的内墙作业移动机器人路径规划
18
作者 靳徐明 林云汉 +1 位作者 张磊 闵华松 《计算机系统应用》 2024年第5期254-261,共8页
本文针对多房间的移动机器人内墙作业的路径规划任务,提出一种两阶段路径规划方法.第1阶段针对沿墙作业过程中环境存在灰尘或雾气造成的传感器失效问题,以及房间多出口时路径规划不完整问题,我们提出起点自动选择沿墙路径规划方法,基于... 本文针对多房间的移动机器人内墙作业的路径规划任务,提出一种两阶段路径规划方法.第1阶段针对沿墙作业过程中环境存在灰尘或雾气造成的传感器失效问题,以及房间多出口时路径规划不完整问题,我们提出起点自动选择沿墙路径规划方法,基于栅格地图离线生成沿墙规划路径.第2阶段,针对点到点路径规划过程中的动态避障问题,我们提出一种基于PSAC (prioritized experience replay soft actor critic)算法的点到点路径规划方法,在软行动者-评论家(soft actor critic,SAC)的中引入优先级经验回放策略,实现机器人的动态避障.实验部分设计了沿墙路径规划对比实验和动态避障的对比实验,验证本文所提出的方法在室内沿墙路径规划和点到点路径规划的有效性. 展开更多
关键词 两阶段路径规划方法 沿墙路径规划 强化学习 PSAC
下载PDF
Imaginary filtered hindsight experience replay for UAV tracking dynamic targets in large-scale unknown environments
19
作者 Zijian HU Xiaoguang GAO +2 位作者 Kaifang WAN Neretin EVGENY Jinliang LI 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2023年第5期377-391,共15页
As an advanced combat weapon,Unmanned Aerial Vehicles(UAVs)have been widely used in military wars.In this paper,we formulated the Autonomous Navigation Control(ANC)problem of UAVs as a Markov Decision Process(MDP)and ... As an advanced combat weapon,Unmanned Aerial Vehicles(UAVs)have been widely used in military wars.In this paper,we formulated the Autonomous Navigation Control(ANC)problem of UAVs as a Markov Decision Process(MDP)and proposed a novel Deep Reinforcement Learning(DRL)method to allow UAVs to perform dynamic target tracking tasks in large-scale unknown environments.To solve the problem of limited training experience,the proposed Imaginary Filtered Hindsight Experience Replay(IFHER)generates successful episodes by reasonably imagining the target trajectory in the failed episode to augment the experiences.The welldesigned goal,episode,and quality filtering strategies ensure that only high-quality augmented experiences can be stored,while the sampling filtering strategy of IFHER ensures that these stored augmented experiences can be fully learned according to their high priorities.By training in a complex environment constructed based on the parameters of a real UAV,the proposed IFHER algorithm improves the convergence speed by 28.99%and the convergence result by 11.57%compared to the state-of-the-art Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm.The testing experiments carried out in environments with different complexities demonstrate the strong robustness and generalization ability of the IFHER agent.Moreover,the flight trajectory of the IFHER agent shows the superiority of the learned policy and the practical application value of the algorithm. 展开更多
关键词 Artificial intelligence Autonomous navigation control Deep reinforcement learning Hindsight experience replay UAV
原文传递
基于TD3-PER的混合动力履带车辆能量管理 被引量:2
20
作者 张彬 邹渊 +3 位作者 张旭东 杜国栋 孙文景 孙巍 《汽车工程》 EI CSCD 北大核心 2022年第9期1400-1409,共10页
为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速... 为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速策略的训练和获得更高的优化性能。在建立包括纵横向动力学的车辆模型的基础上,完成基于TD3-PER的能量管理策略的框架构建和仿真验证。结果表明,与深度确定性策略梯度(DDPG)相比,所提出的策略使SHETV的燃油消耗降低了3.89%,燃油经济性达到了作为基准的动态规划算法的95.05%。同时该策略具有较好的电池SOC保持能力和工况适应性。 展开更多
关键词 串联式混合动力履带车辆 双延迟深度确定性策略梯度 连续控制 优先经验采样
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部