期刊文献+
共找到309篇文章
< 1 2 16 >
每页显示 20 50 100
基于Deep Q Networks的交通指示灯控制方法 被引量:2
1
作者 颜文胜 吕红兵 《计算机测量与控制》 2021年第6期93-97,共5页
交通指示灯的智能控制是当前智能交通研究中的热点问题;为更加及时有效地自适应动态交通,进一步提升街道路口车流效率,提出了一种基于Deep Q Networks的道路指示灯控制方法;该方法基于道路指示灯控制问题描述,以状态、行动和奖励三要素... 交通指示灯的智能控制是当前智能交通研究中的热点问题;为更加及时有效地自适应动态交通,进一步提升街道路口车流效率,提出了一种基于Deep Q Networks的道路指示灯控制方法;该方法基于道路指示灯控制问题描述,以状态、行动和奖励三要素构建道路指示灯控制的强化学习模型,提出基于Deep Q Networks的道路指示控制方法流程;为检验方法的有效性,以浙江省台州市市府大道与东环大道交叉路口交通数据在SUMO中进行方法比对与仿真实验;实验结果表明,基于Deep Q Networks的交通指示灯控制方法在交通指示等的控制与调度中具有更高的效率和自主性,更有利于改善路口车流的吞吐量,对道路路口车流的驻留时延、队列长度和等待时间等方面的优化具有更好的性能。 展开更多
关键词 道路指示灯 deep q networks 智能交通 信号控制
下载PDF
基于Deep Q Networks的机械臂推动和抓握协同控制 被引量:2
2
作者 贺道坤 《现代制造工程》 CSCD 北大核心 2021年第7期23-28,共6页
针对目前机械臂在复杂场景应用不足以及推动和抓握自主协同控制研究不多的现状,发挥深度Q网络(Deep Q Networks)无规则、自主学习优势,提出了一种基于Deep Q Networks的机械臂推动和抓握协同控制方法。通过2个完全卷积网络将场景信息映... 针对目前机械臂在复杂场景应用不足以及推动和抓握自主协同控制研究不多的现状,发挥深度Q网络(Deep Q Networks)无规则、自主学习优势,提出了一种基于Deep Q Networks的机械臂推动和抓握协同控制方法。通过2个完全卷积网络将场景信息映射至推动或抓握动作,经过马尔可夫过程,采取目光长远奖励机制,选取最佳行为函数,实现对复杂场景机械臂推动和抓握动作的自主协同控制。在仿真和真实场景实验中,该方法在复杂场景中能够通过推动和抓握自主协同操控实现对物块的快速抓取,并获得更高的动作效率和抓取成功率。 展开更多
关键词 机械臂 抓握 推动 深度q网络(deep q networks) 协同控制
下载PDF
Improved Double Deep Q Network-Based Task Scheduling Algorithm in Edge Computing for Makespan Optimization
3
作者 Lei Zeng Qi Liu +1 位作者 Shigen Shen Xiaodong Liu 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2024年第3期806-817,共12页
Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical ... Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical challenge.This study proposes an edge task scheduling approach based on an improved Double Deep Q Network(DQN),which is adopted to separate the calculations of target Q values and the selection of the action in two networks.A new reward function is designed,and a control unit is added to the experience replay unit of the agent.The management of experience data are also modified to fully utilize its value and improve learning efficiency.Reinforcement learning agents usually learn from an ignorant state,which is inefficient.As such,this study proposes a novel particle swarm optimization algorithm with an improved fitness function,which can generate optimal solutions for task scheduling.These optimized solutions are provided for the agent to pre-train network parameters to obtain a better cognition level.The proposed algorithm is compared with six other methods in simulation experiments.Results show that the proposed algorithm outperforms other benchmark methods regarding makespan. 展开更多
关键词 edge computing task scheduling reinforcement learning MAKESPAN Double deep q network(DqN)
原文传递
Artificial Potential Field Incorporated Deep-Q-Network Algorithm for Mobile Robot Path Prediction 被引量:3
4
作者 A.Sivaranjani B.Vinod 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期1135-1150,共16页
Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a st... Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a state action function in mobile robots suited to their environment.During trial-and-error interaction with its surroundings,it helps a robot tofind an ideal behavior on its own.The Deep Q Network(DQN)algorithm is used in TurtleBot 3(TB3)to achieve the goal by successfully avoiding the obstacles.But it requires a large number of training iterations.This research mainly focuses on a mobility robot’s best path prediction utilizing DQN and the Artificial Potential Field(APF)algorithms.First,a TB3 Waffle Pi DQN is built and trained to reach the goal.Then the APF shortest path algorithm is incorporated into the DQN algorithm.The proposed planning approach is compared with the standard DQN method in a virtual environment based on the Robot Operation System(ROS).The results from the simulation show that the combination is effective for DQN and APF gives a better optimal path and takes less time when compared to the conventional DQN algo-rithm.The performance improvement rate of the proposed DQN+APF in comparison with DQN in terms of the number of successful targets is attained by 88%.The performance of the proposed DQN+APF in comparison with DQN in terms of average time is achieved by 0.331 s.The performance of the proposed DQN+APF in comparison with DQN average rewards in which the positive goal is attained by 85%and the negative goal is attained by-90%. 展开更多
关键词 Artificial potentialfield deep reinforcement learning mobile robot turtle bot deep q network path prediction
下载PDF
一种基于DQN的去中心化优先级卸载策略
5
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度q网络
下载PDF
基于D3QN的火力方案优选方法
6
作者 佘维 岳瀚 +1 位作者 田钊 孔德锋 《火力与指挥控制》 CSCD 北大核心 2024年第8期166-174,共9页
针对在多类弹药协同攻击地面工事类目标任务中火力方案优选效率低的问题,提出一种基于双层决斗DQN(dueling double deep Q network,D3QN)的火力方案优选方法。该方法将打击过程建模为马尔科夫决策过程(Markov decision processes,MDP),... 针对在多类弹药协同攻击地面工事类目标任务中火力方案优选效率低的问题,提出一种基于双层决斗DQN(dueling double deep Q network,D3QN)的火力方案优选方法。该方法将打击过程建模为马尔科夫决策过程(Markov decision processes,MDP),设计其状态空间和动作空间,设计综合奖励函数激励火力方案生成策略优化,使智能体通过强化学习框架对策略进行自主训练。仿真实验结果表明,该方法对地面工事类目标的火力方案进行决策,相较于传统启发式智能算法能够获得较优的火力方案,其计算效率和结果的稳定性相较于传统深度强化学习算法具有更明显的优势。 展开更多
关键词 深度强化学习 深度q网络 D3qN 组合优化 火力方案优选
下载PDF
基于威胁机制-双重深度Q网络的多功能雷达认知干扰决策
7
作者 黄湘松 查力根 潘大鹏 《应用科技》 CAS 2024年第4期145-153,共9页
针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威... 针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威胁网络和经验回放2种机制。为了验证算法的有效性,在考虑多功能雷达(multifunctional radar,MFR)工作状态与干扰样式之间的关联性的前提下,搭建了基于认知电子战的仿真环境,分析了雷达与干扰机之间的对抗博弈过程,并且在使用TW-DDQN进行训练的过程中,讨论了威胁半径与威胁步长参数的不同对训练过程的影响。仿真实验结果表明,干扰机通过自主学习成功与雷达进行了长时间的博弈,有80%的概率成功突防,训练效果明显优于传统DQN和优先经验回放DDQN(prioritized experience replay-DDQN,PER-DDQN)。 展开更多
关键词 干扰决策 认知电子战 深度q网络 强化学习 干扰机 多功能雷达 经验回放 恒虚警率探测
下载PDF
Real-time UAV path planning based on LSTM network
8
作者 ZHANG Jiandong GUO Yukun +3 位作者 ZHENG Lihui YANG Qiming SHI Guoqing WU Yong 《Journal of Systems Engineering and Electronics》 SCIE CSCD 2024年第2期374-385,共12页
To address the shortcomings of single-step decision making in the existing deep reinforcement learning based unmanned aerial vehicle(UAV)real-time path planning problem,a real-time UAV path planning algorithm based on... To address the shortcomings of single-step decision making in the existing deep reinforcement learning based unmanned aerial vehicle(UAV)real-time path planning problem,a real-time UAV path planning algorithm based on long shortterm memory(RPP-LSTM)network is proposed,which combines the memory characteristics of recurrent neural network(RNN)and the deep reinforcement learning algorithm.LSTM networks are used in this algorithm as Q-value networks for the deep Q network(DQN)algorithm,which makes the decision of the Q-value network has some memory.Thanks to LSTM network,the Q-value network can use the previous environmental information and action information which effectively avoids the problem of single-step decision considering only the current environment.Besides,the algorithm proposes a hierarchical reward and punishment function for the specific problem of UAV real-time path planning,so that the UAV can more reasonably perform path planning.Simulation verification shows that compared with the traditional feed-forward neural network(FNN)based UAV autonomous path planning algorithm,the RPP-LSTM proposed in this paper can adapt to more complex environments and has significantly improved robustness and accuracy when performing UAV real-time path planning. 展开更多
关键词 deep q network path planning neural network unmanned aerial vehicle(UAV) long short-term memory(LSTM)
下载PDF
基于FL-MADQN算法的NR-V2X车载通信频谱资源分配
9
作者 李中捷 邱凡 +2 位作者 姜家祥 李江虹 贾玉婷 《中南民族大学学报(自然科学版)》 CAS 2024年第3期401-407,共7页
针对5G新空口-车联网(New Radio-Vehicle to Everything,NR-V2X)场景下车对基础设施(Vehicle to Infrastructure,V2I)和车对车(Vehicle to Vehicle,V2V)共享上行通信链路的频谱资源分配问题,提出了一种联邦-多智能体深度Q网络(Federated... 针对5G新空口-车联网(New Radio-Vehicle to Everything,NR-V2X)场景下车对基础设施(Vehicle to Infrastructure,V2I)和车对车(Vehicle to Vehicle,V2V)共享上行通信链路的频谱资源分配问题,提出了一种联邦-多智能体深度Q网络(Federated Learning-Multi-Agent Deep Q Network,FL-MADQN)算法.该分布式算法中,每个车辆用户作为一个智能体,根据获取的本地信道状态信息,以网络信道容量最佳为目标函数,采用DQN算法训练学习本地网络模型.采用联邦学习加快以及稳定各智能体网络模型训练的收敛速度,即将各智能体的本地模型上传至基站进行聚合形成全局模型,再将全局模型下发至各智能体更新本地模型.仿真结果表明:与传统分布式多智能体DQN算法相比,所提出的方案具有更快的模型收敛速度,并且当车辆用户数增大时仍然保证V2V链路的通信效率以及V2I链路的信道容量. 展开更多
关键词 车联网 资源分配 深度q网络 联邦学习
下载PDF
演化算法的DQN网络参数优化方法
10
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略
11
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
12
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度q网络 功率分配
下载PDF
基于深度Q网络优化运行方式的风电场次同步振荡抑制策略
13
作者 陆文安 吴许晗 +3 位作者 余一平 李兆伟 郄朝辉 李甘 《现代电力》 北大核心 2024年第3期448-457,共10页
随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振... 随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振荡抑制策略。首先,通过时域仿真分析桨距角和串补电容对风电场次同步振荡阻尼的影响,在此基础上建立桨距角调整风机出力、并联电容调整线路串补的次同步振荡联合优化数学模型。其次,将深度Q网络算法应用于系统振荡阻尼优化求解问题,获得风电机组次同步振荡抑制优化策略,并与基于遗传算法求解的次同步振荡抑制结果对比。结果表明,该方法有效降低了振荡幅值,提升了系统的阻尼,验证了该方法的合理性和优越性。 展开更多
关键词 双馈风机 次同步振荡 深度q网络 阻尼优化 振荡抑制
下载PDF
基于深度Q网络的无人车侦察路径规划
14
作者 夏雨奇 黄炎焱 陈恰 《系统工程与电子技术》 EI CSCD 北大核心 2024年第9期3070-3081,共12页
在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结... 在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结合,通过端到端的方式生成无人侦察车的运动轨迹。针对深度Q网络学习速度慢、泛化能力差的问题,根据神经网络的训练特点提出基于经验分类的深度Q网络,并提出具有一定泛化能力的状态空间。仿真实验结果表明,相较于传统路径规划算法,所提算法规划出的路径更符合无人侦察车的运动轨迹并提升无人侦察车的学习效率和泛化能力。 展开更多
关键词 深度强化学习 无人侦察车 路径规划 深度q网络
下载PDF
基于改进DDQN的无人车路径规划算法
15
作者 曹京威 何秋生 《组合机床与自动化加工技术》 北大核心 2024年第8期48-53,共6页
针对DDQN算法在路径规划方面存在收敛速度慢和路径质量低等问题,基于DDQN算法研究了一种无人车路径规划算法。首先,通过获得多个时刻的奖励值,将这些奖励累加并均值处理从而充分利用奖励值信息;然后,通过优化斥力生成的方向改进人工势场... 针对DDQN算法在路径规划方面存在收敛速度慢和路径质量低等问题,基于DDQN算法研究了一种无人车路径规划算法。首先,通过获得多个时刻的奖励值,将这些奖励累加并均值处理从而充分利用奖励值信息;然后,通过优化斥力生成的方向改进人工势场法,并用改进的人工势场法代替随机探索提升收敛速度;最后,通过判断路径与障碍物的关系移除冗余节点,并使用贝塞尔曲线对路径进行平滑处理提升路径质量。仿真结果表明,在20×20的两种环境中,改进的DDQN算法相比原始DDQN算法收敛速度分别提升69.01%和55.88%,路径长度分别缩短21.39%和14.33%,并且路径平滑度更高。将改进的DDQN算法部署在无人车上进行检验,结果表明无人车能够较好完成路径规划任务。 展开更多
关键词 强化学习 深度q网络 人工势场 路径规划
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
16
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度q网络(DDqN)算法
下载PDF
基于认知行为模型的启发加速深度Q网络
17
作者 李嘉祥 陈浩 +1 位作者 黄健 张中杰 《计算机应用与软件》 北大核心 2024年第9期148-155,共8页
由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能... 由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能体学习的问题。该算法将启发知识建模为基于BDI(Belief-Desire-Intention)的认知行为模型,用于产生认知行为知识引导智能体策略学习,设计启发策略网络在线引导智能体的动作选择。GYM典型环境与星际争霸2环境下实验表明,该算法可以根据环境变化动态提取有效的认知行为知识,并借助启发策略网络加速智能体策略收敛。 展开更多
关键词 强化学习 认知行为模型 启发加速深度q网络
下载PDF
基于深度Q网络的机器人路径规划研究综述
18
作者 卢锦澎 梁宏斌 《传感器与微系统》 CSCD 北大核心 2024年第6期1-5,共5页
随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,... 随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,系统梳理并总结了从奖励函数、探索能力、样本利用率等方面进行优化的研究成果和思路。最后,讨论了DQN在现代物流中进行机器人路径规划的优势,对每个场景提出了算法的优化方向,涵盖状态空间、动作空间以及奖励函数等多个关键方面。 展开更多
关键词 机器人 路径规划 深度q网络 现代物流
下载PDF
基于改进DQN的动态避障路径规划
19
作者 郑晨炜 侯凌燕 +2 位作者 王超 赵青娟 邹智元 《北京信息科技大学学报(自然科学版)》 2024年第5期14-22,共9页
针对传统深度Q学习网络(deep Q-learning network,DQN)在具有动态障碍物的路径规划下,移动机器人在探索时频繁碰撞难以移动至目标点的问题,通过在探索策略和经验回放机制上进行改进,提出一种改进的DQN算法。在探索策略上,利用快速搜索... 针对传统深度Q学习网络(deep Q-learning network,DQN)在具有动态障碍物的路径规划下,移动机器人在探索时频繁碰撞难以移动至目标点的问题,通过在探索策略和经验回放机制上进行改进,提出一种改进的DQN算法。在探索策略上,利用快速搜索随机树(rapidly-exploring random tree,RRT)算法自动生成静态先验知识来指导动作选取,替代ε-贪婪策略的随机动作,提高智能体到达目标的成功率;在经验利用上,使用K-means算法设计一种聚类经验回放机制,根据动态障碍物的位置信息进行聚类分簇,着重采样与当前智能体状态相似的经验进行回放,使智能体更有效地避免碰撞动态障碍物。二维栅格化环境下的仿真实验表明,在动态环境下,该算法可以避开静态和动态障碍物,成功移动至目标点,验证了该算法在应对动态避障路径规划的可行性。 展开更多
关键词 动态环境 路径规划 深度q学习网络 避障 经验回放
下载PDF
基于DQN的机场加油车动态调度方法研究
20
作者 陈维兴 李业波 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第4期764-773,共10页
针对实际航班时刻不确定导致机场加油车利用率低、调度实时性差的问题,提出一种结合了多目标深度强化学习框架的深度Q网络加油车动态调度方法。建立了以最大化加油任务准时率以及平均空闲车辆占比为目标的优化模型;设计了5个衡量车辆当... 针对实际航班时刻不确定导致机场加油车利用率低、调度实时性差的问题,提出一种结合了多目标深度强化学习框架的深度Q网络加油车动态调度方法。建立了以最大化加油任务准时率以及平均空闲车辆占比为目标的优化模型;设计了5个衡量车辆当前状态的状态特征作为网络的输入,再根据2种目标提出了2种调度策略作为动作空间,使得算法能够根据航班动态数据实时生成动态调度方案;完成了对机场加油车动态调度模型的求解,并利用不同规模的算例验证了算法的有效性以及实时性。将所提方法应用于实际调度中,结果表明,与人工调度相比,平均每天加油任务准时完成数增加9.43个,车辆平均工作时间减少57.6 min,DQN的结果更具优势,提升了加油车运行效率。 展开更多
关键词 机场加油车 动态调度 深度强化学习 深度q网络 多目标优化
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部