期刊文献+
共找到53篇文章
< 1 2 3 >
每页显示 20 50 100
基于Dueling Double DQN的交通信号控制方法
1
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 dueling Double DQN dueling network
下载PDF
一种基于Dueling DQN改进的低轨卫星路由算法
2
作者 许向阳 李京阳 彭文鑫 《长江信息通信》 2023年第7期56-59,共4页
卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回... 卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回放进行改进,将随机经验采样和优先经验采样进行融合,设置分层采样方法来进行采样;最后对网络进行参数的设置并且进行训练。从仿真和分析表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升。 展开更多
关键词 卫星路由 分层经验回放 决斗网络
下载PDF
基于Dueling Network与RRT的机械臂抓放控制 被引量:2
3
作者 王永 李金泽 《机床与液压》 北大核心 2021年第17期59-64,共6页
针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Duelin... 针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Dueling Network实现对未知物件的自主抓取,经过关键点选取以及RRT算法依据任务需要将物件准确放置于目标位置。实验结果表明:该方法简便有效,机械臂抓取与放置自主灵活,可进一步提升机械臂应对未知物件的自主操控能力,满足对不同物件抓取与放置任务的需求。 展开更多
关键词 机械臂 深度强化学习 dueling network RRT 抓放控制
下载PDF
一种改进dueling网络的机器人避障方法 被引量:5
4
作者 周翼 陈渤 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第1期46-50,63,共6页
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并... 针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。 展开更多
关键词 机器人避障 深度增强学习 dueling网络 独立训练
下载PDF
Attention-based spatio-temporal graph convolutional network considering external factors for multi-step traffic flow prediction 被引量:2
5
作者 Jihua Ye Shengjun Xue Aiwen Jiang 《Digital Communications and Networks》 SCIE CSCD 2022年第3期343-350,共8页
Traffic flow prediction is an important part of the intelligent transportation system. Accurate multi-step traffic flow prediction plays an important role in improving the operational efficiency of the traffic network... Traffic flow prediction is an important part of the intelligent transportation system. Accurate multi-step traffic flow prediction plays an important role in improving the operational efficiency of the traffic network. Since traffic flow data has complex spatio-temporal correlation and non-linearity, existing prediction methods are mainly accomplished through a combination of a Graph Convolutional Network (GCN) and a recurrent neural network. The combination strategy has an excellent performance in traffic prediction tasks. However, multi-step prediction error accumulates with the predicted step size. Some scholars use multiple sampling sequences to achieve more accurate prediction results. But it requires high hardware conditions and multiplied training time. Considering the spatiotemporal correlation of traffic flow and influence of external factors, we propose an Attention Based Spatio-Temporal Graph Convolutional Network considering External Factors (ABSTGCN-EF) for multi-step traffic flow prediction. This model models the traffic flow as diffusion on a digraph and extracts the spatial characteristics of traffic flow through GCN. We add meaningful time-slots attention to the encoder-decoder to form an Attention Encoder Network (AEN) to handle temporal correlation. The attention vector is used as a competitive choice to draw the correlation between predicted states and historical states. We considered the impact of three external factors (daytime, weekdays, and traffic accident markers) on the traffic flow prediction tasks. Experiments on two public data sets show that it makes sense to consider external factors. The prediction performance of our ABSTGCN-EF model achieves 7.2%–8.7% higher than the state-of-the-art baselines. 展开更多
关键词 multi-step traffic flow prediction Graph convolutional network External factors Attentional encoder network Spatiotemporal correlation
下载PDF
Adaptive Multi-Step Evaluation Design With Stability Guarantee for Discrete-Time Optimal Learning Control 被引量:3
6
作者 Ding Wang Jiangyu Wang +2 位作者 Mingming Zhao Peng Xin Junfei Qiao 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2023年第9期1797-1809,共13页
This paper is concerned with a novel integrated multi-step heuristic dynamic programming(MsHDP)algorithm for solving optimal control problems.It is shown that,initialized by the zero cost function,MsHDP can converge t... This paper is concerned with a novel integrated multi-step heuristic dynamic programming(MsHDP)algorithm for solving optimal control problems.It is shown that,initialized by the zero cost function,MsHDP can converge to the optimal solution of the Hamilton-Jacobi-Bellman(HJB)equation.Then,the stability of the system is analyzed using control policies generated by MsHDP.Also,a general stability criterion is designed to determine the admissibility of the current control policy.That is,the criterion is applicable not only to traditional value iteration and policy iteration but also to MsHDP.Further,based on the convergence and the stability criterion,the integrated MsHDP algorithm using immature control policies is developed to accelerate learning efficiency greatly.Besides,actor-critic is utilized to implement the integrated MsHDP scheme,where neural networks are used to evaluate and improve the iterative policy as the parameter architecture.Finally,two simulation examples are given to demonstrate that the learning effectiveness of the integrated MsHDP scheme surpasses those of other fixed or integrated methods. 展开更多
关键词 Adaptive critic artificial neural networks Hamilton-Jacobi-Bellman(HJB)equation multi-step heuristic dynamic programming multi-step reinforcement learning optimal control
下载PDF
Multi-Step Detection of Simplex and Duplex Wormhole Attacks over Wireless Sensor Networks
7
作者 Abrar M.Alajlan 《Computers, Materials & Continua》 SCIE EI 2022年第3期4241-4259,共19页
Detection of thewormhole attacks is a cumbersome process,particularly simplex and duplex over thewireless sensor networks(WSNs).Wormhole attacks are characterized as distributed passive attacks that can destabilize or... Detection of thewormhole attacks is a cumbersome process,particularly simplex and duplex over thewireless sensor networks(WSNs).Wormhole attacks are characterized as distributed passive attacks that can destabilize or disable WSNs.The distributed passive nature of these attacks makes them enormously challenging to detect.The main objective is to find all the possible ways in which how the wireless sensor network’s broadcasting character and transmission medium allows the attacker to interrupt network within the distributed environment.And further to detect the serious routing-disruption attack“Wormhole Attack”step by step through the different network mechanisms.In this paper,a new multi-step detection(MSD)scheme is introduced that can effectively detect the wormhole attacks for WSN.The MSD consists of three algorithms to detect and prevent the simplex and duplex wormhole attacks.Furthermore,the proposed scheme integrated five detection modules to systematically detect,recover,and isolate wormhole attacks.Simulation results conducted inOMNET++show that the proposedMSDhas lower false detection and false toleration rates.Besides,MSDcan effectively detect wormhole attacks in a completely distributed network environment,as suggested by the simulation results. 展开更多
关键词 Wireless sensor network wormhole attack node validation multi-step detection
下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:2
8
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
基于知识融合和深度强化学习的智能紧急切机决策 被引量:1
9
作者 李舟平 曾令康 +4 位作者 姚伟 胡泽 帅航 汤涌 文劲宇 《中国电机工程学报》 EI CSCD 北大核心 2024年第5期1675-1687,I0001,共14页
紧急控制是在严重故障后维持电力系统暂态安全稳定的重要手段。目前常用的“人在环路”离线紧急控制决策制定方式存在效率不高、严重依赖专家经验等问题,该文提出一种基于知识融合和深度强化学习(deep reinforcement learning,DRL)的智... 紧急控制是在严重故障后维持电力系统暂态安全稳定的重要手段。目前常用的“人在环路”离线紧急控制决策制定方式存在效率不高、严重依赖专家经验等问题,该文提出一种基于知识融合和深度强化学习(deep reinforcement learning,DRL)的智能紧急切机决策制定方法。首先,构建基于DRL的紧急切机决策制定框架。然后,在智能体处理多个发电机决策时,由于产生的高维决策空间使得智能体训练困难,提出决策空间压缩和应用分支竞争Q(branching dueling Q,BDQ)网络的两种解决方法。接着,为了进一步提高智能体的探索效率和决策质量,在智能体训练中融合紧急切机控制相关知识经验。最后,在10机39节点系统中的仿真结果表明,所提方法可以在多发电机决策时快速给出有效的紧急切机决策,应用BDQ网络比决策空间压缩的决策性能更好,知识融合策略可引导智能体减少无效决策探索从而提升决策性能。 展开更多
关键词 紧急切机决策 深度强化学习 决策空间 分支竞争Q网络 知识融合
下载PDF
自动化立体仓库退库货位优化问题及其求解算法 被引量:1
10
作者 何在祥 李丽 +1 位作者 张云峰 郗琳 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第3期183-194,共12页
针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体... 针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体仓库实时存储信息和出库作业信息构建多维状态,以退库货位选择构建动作,建立自动化立体仓库退库货位优化的马尔科夫决策过程模型;将立体仓库多维状态特征输入双层决斗网络,采用决斗双重深度Q网络(dueling double deep Q-network,D3QN)算法训练网络模型并预测退库动作目标价值,以确定智能体的最优行为策略。实验结果表明D3QN算法在求解大规模退库货位优化问题上具有较好的稳定性。 展开更多
关键词 自动化立体仓库 退库货位优化 深度强化学习 D3QN
下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略
11
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度Q网络 正余弦算法 能量管理
下载PDF
基于改进双重深度Q网络主动学习语义分割模型
12
作者 李林 刘政 +2 位作者 南海 张泽崴 魏晔 《计算机应用研究》 CSCD 北大核心 2024年第11期3337-3342,共6页
针对在图像语义分割任务中获取像素标签困难和分割数据集类别不平衡的问题,提出了一种基于改进双重深度Q网络的主动学习语义分割模型CG_D3QN。引入了一种结合决斗网络结构以及门控循环单元的混合网络结构,通过减轻Q值过估计问题和有效... 针对在图像语义分割任务中获取像素标签困难和分割数据集类别不平衡的问题,提出了一种基于改进双重深度Q网络的主动学习语义分割模型CG_D3QN。引入了一种结合决斗网络结构以及门控循环单元的混合网络结构,通过减轻Q值过估计问题和有效地利用历史状态信息,提高了策略评估的准确性和计算效率。在CamVid和Cityscapes数据集上,该模型相较于基线方法,所需的样本标注量减少了65.0%,同时对于少样本标签的类别,其平均交并比提升了约1%~3%。实验结果表明,该模型能够显著减少样本标注成本并有效地缓解了类别不平衡问题,且对于不同的分割网络也具有适用性。 展开更多
关键词 深度强化学习 主动学习 图像语义分割 决斗网络 门控循环单元
下载PDF
基于双智能体深度强化学习的交直流配电网经济调度方法
13
作者 赵倩宇 韩照洋 +3 位作者 王守相 尹孜阳 董逸超 钱广超 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第6期624-632,共9页
随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)... 随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)和软演员-评论家(soft actor critic,SAC)双智能体深度强化学习的交直流配电网调度方法.该方法首先将经济调度问题与两智能体的动作、奖励、状态相结合,建立经济调度的马尔可夫决策过程,并分别基于BDQ和SAC方法设置两个智能体,其中,BDQ智能体用于控制配电网中离散动作设备,SAC智能体用于控制连续动作设备.然后,通过集中训练分散执行的方式,两智能体与环境进行交互,进行离线训练.最后,固定智能体的参数,进行在线调度.该方法的优势在于采用双智能体能够同时控制离散动作设备电容器组、载调压变压器和连续动作设备变流器、储能,同时通过对双智能体的集中训练,可以自适应源荷的不确定性.改进的IEEE33节点交直流配电网算例测试验证了所提方法的有效性. 展开更多
关键词 交直流配电网 深度强化学习 经济调度 分支决斗深度强化网络 软演员-评论家
下载PDF
基于深度强化学习带时间窗的绿色车辆路径问题研究
14
作者 曹煜 叶春明 《物流科技》 2024年第19期72-79,共8页
如何在客户规定的时间内合理安排车辆运输路线,一直是物流领域亟待解决的问题。基于此,文章提出使用基于软更新策略的决斗双重深度Q网络(Dueling Double Deep Q-network,D3QN),设计动作空间、状态空间与奖励函数,对带时间窗的绿色车辆... 如何在客户规定的时间内合理安排车辆运输路线,一直是物流领域亟待解决的问题。基于此,文章提出使用基于软更新策略的决斗双重深度Q网络(Dueling Double Deep Q-network,D3QN),设计动作空间、状态空间与奖励函数,对带时间窗的绿色车辆路径问题进行建模与求解。选择了小、中、大规模的总计18个算例,将三种算法的实验结果在平均奖励、平均调度车辆数、平均里程和运算时间四个维度进行比较。实验结果表明:在大多数算例中,与Double DQN和Dueling DQN相比,D3QN能在可接受的增加时间范围内,获得更高的奖励函数,调度更少的车辆数,运输更短的里程,实现绿色调度的目标。 展开更多
关键词 深度强化学习 路径优化 决斗双重深度Q网络 D3QN算法 车辆路径问题
下载PDF
基于对决深度Q网络的机器人自适应PID恒力跟踪研究
15
作者 杜亮 梅雪川 《机床与液压》 北大核心 2024年第15期50-54,共5页
为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该... 为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该算法利用对决深度Q网络自主学习、寻找最优的控制参数;最后,通过Coopeliasim与MATLAB软件平台展开机器人恒力跟踪实验。仿真结果表明:提出的基于对决深度Q网络的自适应PID算法能够获得较好的力跟踪效果,验证了算法的可行性;相比于深度Q网络算法,力误差绝对值的平均值减少了51.6%,且收敛速度得到提升,使机器人能够更好地跟踪外界环境。 展开更多
关键词 机器人 恒力控制 自适应PID控制 对决深度Q网络
下载PDF
湛钢3#高炉项目煤气系统优化提升
16
作者 张仕通 《冶金动力》 2024年第5期22-25,共4页
湛钢一期煤气系统的净化装置等设施多为单一系统,当设备出现故障或需要检修时,会对生产造成较大影响,同时由于煤气回收量的增加、轧钢工序能效的提升,煤气压缩机输送能力不足和煤气柜缓冲能力不够的问题日益凸显。为了解决高炉煤气系统... 湛钢一期煤气系统的净化装置等设施多为单一系统,当设备出现故障或需要检修时,会对生产造成较大影响,同时由于煤气回收量的增加、轧钢工序能效的提升,煤气压缩机输送能力不足和煤气柜缓冲能力不够的问题日益凸显。为了解决高炉煤气系统存在的问题,湛钢在3#高炉项目建设过程中对相关煤气设施、工艺系统进行了提升改造,取得了较好的实施效果。 展开更多
关键词 煤气系统 管网优化 煤气柜并列自动运行 双路送出控制技术
下载PDF
Nonlinear system PID-type multi-step predictive control 被引量:6
17
作者 YanZHANG ZengqiangCHEN ZhuzhiYUAN 《控制理论与应用(英文版)》 EI 2004年第2期201-204,共4页
A compound neural network was constructed during the process of identification and multi-step prediction. Under the PID-type long-range predictive cost function, the control signal was calculated based on gradient alg... A compound neural network was constructed during the process of identification and multi-step prediction. Under the PID-type long-range predictive cost function, the control signal was calculated based on gradient algorithm. The nonlinear controller’s structure was similar to the conventional PID controller. The parameters of this controller were tuned by using a local recurrent neural network on-line. The controller has a better effect than the conventional PID controller. Simulation study shows the effectiveness and good performance. 展开更多
关键词 multi-step predictive control Neural networks PID control Nonlinear system
下载PDF
基于强化学习的改进NSGA-Ⅱ算法的城市快速路入口匝道控制
18
作者 陈娟 郭琦 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期666-680,共15页
为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争... 为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争结构的深度Q网络(dueling deep Q network, Dueling DQN)、深度循环Q网络(deep recurrent Q network, DRQN)和NSGA-Ⅱ算法,将Dueling DRQN-NSGA-Ⅱ算法用于匝道控制问题.除了考虑匝道车辆汇入以提高快速路通行效率外,还考虑了环境和能源指标,将尾气排放和燃油消耗作为评价指标.除了与无控制情况及其他算法进行比较之外, Dueling DRQN-NSGA-Ⅱ还与NSGA-Ⅱ算法进行了比较.实验结果表明:与无控制情况相比,本算法能有效改善路网通行效率、缓解环境污染、减少能源损耗;相对于无控制情况,总花费时间(total time spent, TTS)减少了16.14%,总尾气排放(total emissions, TE)减少了9.56%,总燃油消耗(total fuel consumption, TF)得到了43.49%的改善. 展开更多
关键词 匝道控制 基于竞争结构的深度Q网络 深度循环Q网络 非支配排序遗传算法
下载PDF
基于竞争双深度Q网络的频谱感知和接入
19
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争双深度Q网络
下载PDF
基于D3QN的无人机编队控制技术 被引量:2
20
作者 赵启 甄子洋 +3 位作者 龚华军 曹红波 李荣 刘继承 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期2137-2146,共10页
针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一... 针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一种优先选择策略与多层动作库结合的方法,加快算法收敛速度并使僚机最终能够保持到期望距离。通过仿真将设计的控制器与PID控制器、Backstepping控制器对比,验证D3QN控制器的有效性。仿真结果表明:该控制器可应用于无人机编队,提高僚机智能化程度,自主学习保持到期望距离,且控制器设计无需模型精确信息,为无人机编队智能化控制提供了依据与参考。 展开更多
关键词 无人机编队 编队控制 深度强化学习 深度Q网络 对偶双重深度Q网络
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部