期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于Dueling Double DQN的交通信号控制方法
1
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 Dueling double dqn Dueling Network
下载PDF
Double DQN Method For Botnet Traffic Detection System
2
作者 Yutao Hu Yuntao Zhao +1 位作者 Yongxin Feng Xiangyu Ma 《Computers, Materials & Continua》 SCIE EI 2024年第4期509-530,共22页
In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforce... In the face of the increasingly severe Botnet problem on the Internet,how to effectively detect Botnet traffic in realtime has become a critical problem.Although the existing deepQnetwork(DQN)algorithminDeep reinforcement learning can solve the problem of real-time updating,its prediction results are always higher than the actual results.In Botnet traffic detection,although it performs well in the training set,the accuracy rate of predicting traffic is as high as%;however,in the test set,its accuracy has declined,and it is impossible to adjust its prediction strategy on time based on new data samples.However,in the new dataset,its accuracy has declined significantly.Therefore,this paper proposes a Botnet traffic detection system based on double-layer DQN(DDQN).Two Q-values are designed to adjust the model in policy and action,respectively,to achieve real-time model updates and improve the universality and robustness of the model under different data sets.Experiments show that compared with the DQN model,when using DDQN,the Q-value is not too high,and the detectionmodel has improved the accuracy and precision of Botnet traffic.Moreover,when using Botnet data sets other than the test set,the accuracy and precision of theDDQNmodel are still higher than DQN. 展开更多
关键词 dqn ddqn deep reinforcement learning botnet detection feature classification
下载PDF
基于Double DQN的双模式多目标信号配时方法
3
作者 聂雷 张明萱 +1 位作者 黄庆涵 鲍海洲 《计算机技术与发展》 2024年第8期143-150,共8页
近年来深度强化学习作为一种高效可靠的机器学习方法被广泛应用在交通信号控制领域。目前,现有交通信号配时方法通常忽略了特殊车辆(例如救护车、消防车等)的优先通行;此外,基于传统深度强化学习的信号配时方法优化目标较为单一,导致其... 近年来深度强化学习作为一种高效可靠的机器学习方法被广泛应用在交通信号控制领域。目前,现有交通信号配时方法通常忽略了特殊车辆(例如救护车、消防车等)的优先通行;此外,基于传统深度强化学习的信号配时方法优化目标较为单一,导致其在复杂交通场景中性能不佳。针对上述问题,基于Double DQN提出一种融合特殊车辆优先通行的双模式多目标信号配时方法(Dual-mode Multi-objective signal timing method based on Double DQN,DMDD),以提高不同交通场景下路口的通行效率。该方法首先基于路口的饱和状态选择信号控制模式,特殊车辆在紧急控制模式下被赋予更高的通行权重,有利于其更快通过路口;接着针对等待时长、队列长度和CO 2排放量3个指标分别设计神经网络进行奖励计算;最后利用Double DQN进行最优信号相位的选择,通过灵活切换信号相位以提升通行效率。基于SUMO的实验结果表明,DMDD与对比方法相比能有效缩短路口处特殊车辆的等待时长、队列长度和CO 2排放量,特殊车辆能够更快通过路口,有效地提高了通行效率。 展开更多
关键词 交通信号配时 深度强化学习 双模式多目标 double dqn SUMO
下载PDF
Federated double DQN based multi-energy microgrid energy management strategy considering carbon emissions 被引量:1
4
作者 Yanhong Yang Tengfei Ma +3 位作者 Haitao Li Yiran Liu Chenghong Tang Wei Pei 《Global Energy Interconnection》 EI CSCD 2023年第6期689-699,共11页
Multi-energy microgrids(MEMG)play an important role in promoting carbon neutrality and achieving sustainable development.This study investigates an effective energy management strategy(EMS)for MEMG.First,an energy man... Multi-energy microgrids(MEMG)play an important role in promoting carbon neutrality and achieving sustainable development.This study investigates an effective energy management strategy(EMS)for MEMG.First,an energy management system model that allows for intra-microgrid energy conversion is developed,and the corresponding Markov decision process(MDP)problem is formulated.Subsequently,an improved double deep Q network(iDDQN)algorithm is proposed to enhance the exploration ability by modifying the calculation of the Q value,and a prioritized experience replay(PER)is introduced into the iDDQN to improve the training speed and effectiveness.Finally,taking advantage of the federated learning(FL)and iDDQN algorithms,a federated iDDQN is proposed to design an MEMG energy management strategy to enable each microgrid to share its experiences in the form of local neural network(NN)parameters with the federation layer,thus ensuring the privacy and security of data.The simulation results validate the superior performance of the proposed energy management strategy in minimizing the economic costs of the MEMG while reducing CO_2 emissions and protecting data privacy. 展开更多
关键词 Multi-energy microgrid Federated learning Improved double dqn Energy conversion
下载PDF
未知环境下改进DDQN的无人机探索航迹规划研究 被引量:3
5
作者 唐嘉宁 杨昕 +2 位作者 周思达 李罗宇 安城安 《电光与控制》 CSCD 北大核心 2023年第4期23-27,33,共6页
对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以... 对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以无人机视野内的环境信息作为输入,引入长短期记忆网络,输出动作方向的选择;设置探索经验样本优先级,提高训练效率;加入飞行动力学约束,设计合理的状态、动作空间及单步奖励函数。运用所提算法,无人机可以自主规划出一条无碰撞且对环境探索范围大的航迹。仿真实验结果表明:在未知环境下,所提算法得到的探索面积比、单步探索平均奖励值等指标均优于传统的DDQN算法。 展开更多
关键词 无人机 长短期记忆网络 深度双Q网络 未知环境探索 航迹规划
下载PDF
基于引导Minimax-DDQN的无人机空战机动决策 被引量:3
6
作者 王昱 任田君 范子琳 《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然... 针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 展开更多
关键词 无人机空战 自主决策 深度强化学习 双重深度Q网络 多阶段训练
下载PDF
基于多代理Double DQN算法模拟发电侧竞价行为 被引量:18
7
作者 高宇 李昀 +2 位作者 曹蓉蓉 李宁峰 高铭泽 《电网技术》 EI CSCD 北大核心 2020年第11期4175-4182,共8页
强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理Double DQN(doubledeepq-learningnetwork,DDQN)算法进行研究。DDQN算法采用神经网... 强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理Double DQN(doubledeepq-learningnetwork,DDQN)算法进行研究。DDQN算法采用神经网络估计值函数与选择动作策略,解决了Q-Learning会因为状态序列的增加导致计算量庞大甚至无法求解的问题。此外,文章根据日前市场发电商报价方式设计了报价策略并作为DDQN的动作空间,将发电商中标电量与负荷需求作为DDQN的状态序列,在tensorflow环境中模拟竞价过程。实验结果表明,使用DDQN算法模拟发电商竞价行为是可行的,并且参与竞价的发电商都达到了纳什均衡点。 展开更多
关键词 多代理 double dqn 神经网络 竞价行为 纳什均衡
下载PDF
基于Expectimax搜索与Double DQN的非完备信息博弈算法 被引量:7
8
作者 雷捷维 王嘉旸 +2 位作者 任航 闫天伟 黄伟 《计算机工程》 CAS CSCD 北大核心 2021年第3期304-310,320,共8页
麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜... 麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜索树扩展过程中,采用Double DQN输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。在Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax搜索算法得到最优动作以改进探索策略。实验结果表明,与Expectimax搜索算法、Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能。 展开更多
关键词 double dqn算法 Expectimax搜索 非完备信息博弈 麻将 强化学习
下载PDF
基于DDQN的片上网络混合关键性消息调度方法 被引量:1
9
作者 李国梁 李峭 +1 位作者 徐亚军 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第7期1233-1241,共9页
对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将... 对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将虫孔交换机制下的消息调度问题建模为马尔可夫决策过程,建立包含环境、动作、状态、奖励的多层感知调度模型;随机生成多组分布不同的混合关键性消息作为训练样本,采用DDQN算法求解该调度模型;在此基础上,提出并实现了带孔隙DDQN算法,在保证时间触发(TT)消息可调度前提下为速率约束(RC)消息预留用于虫孔交换的时隙。算例研究表明:所提方法的求解时长及TT消息确定性端到端延迟的平均值均低于SMT法;带孔隙DDQN算法的RC消息延迟较不带孔隙DDQN算法和SMT法显著降低。 展开更多
关键词 片上网络(NoC) 时间触发(TT)机制 双深度Q网络(ddqn) 混合关键性消息 消息调度
下载PDF
基于动作注意策略的树形DDQN目标候选区域提取方法
10
作者 左国玉 杜婷婷 +2 位作者 马蕾 卢佳豪 龚道雄 《电子与信息学报》 EI CSCD 北大核心 2019年第3期666-673,共8页
针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。... 针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。首先采用DDQN方法在执行较少的动作后选择出当前状态的最佳动作,获取符合条件的候选区域。然后根据执行所选择动作之后所得到的状态重复执行上述过程,以此构成树结构的多条"最佳"路径。最后采用非极大值抑制的方法从多个符合条件的候选区域选择出最佳候选区域。在PascalVOC2007以及Pascal VOC2012上的实验结果表明,在不同数量的候选区域、不同阈值的IoU和不同大小以及不同种类对象的实验条件下,所提方法较其他方法都有着更好的检测性能,可以较好地实现目标检测。 展开更多
关键词 目标检测 候选区域 树结构 双深度Q网络 动作注意
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
11
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度Q网络(ddqn)算法
下载PDF
GA-LSTM speed prediction-based DDQN energy management for extended-range vehicles
12
作者 Laiwei Lu Hong Zhao +3 位作者 Fuliang Xv Yong Luo Junjie Chen Xiaoyun Ding 《Energy and AI》 EI 2024年第3期11-28,共18页
In this paper,a dual deep Q-network(DDQN)energy management model based on long-short memory neural network(LSTM)speed prediction is proposed under the model predictive control(MPC)framework.The initial learning rate a... In this paper,a dual deep Q-network(DDQN)energy management model based on long-short memory neural network(LSTM)speed prediction is proposed under the model predictive control(MPC)framework.The initial learning rate and neuron dropout probability of the LSTM speed prediction model are optimized by the genetic algorithm(GA).The prediction results show that the root-mean-square error of the GA-LSTM speed prediction method is smaller than the SVR method in different speed prediction horizons.The predicted demand power,the state of charge(SOC),and the demand power at the current moment are used as the state input of the agent,and the real-time control of the control strategy is realized by the MPC method.The simulation results show that the proposed control strategy reduces the equivalent fuel consumption by 0.0354 kg compared with DDQN,0.8439 kg compared with ECMS,and 0.742 kg compared with the power-following control strategy.The difference between the proposed control strategy and the dynamic planning control strategy is only 0.0048 kg,0.193%,while the SOC of the power battery remains stable.Finally,the hardware-in-the-loop simulation verifies that the proposed control strategy has good real-time performance. 展开更多
关键词 Extended-range vehicle LSTM speed prediction Genetic algorithm Model predictive control(MPC) Deep reinforcement learning double deep Q-network(ddqn)
原文传递
基于改进D3QN的煤炭码头卸车排产智能优化方法
13
作者 秦保新 张羽霄 +2 位作者 吴思锐 曹卫冲 李湛 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期770-781,共12页
采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度... 采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度高且可行动作稀疏的特点,提出一种改进的D3QN算法,实现了卸车排产调度决策的智能优化。仿真结果表明,对于同一组随机任务序列,优化后的排产策略相比随机策略实现了明显的效率提升。同时,将训练好的排产策略应用于随机生成的新任务序列,可实现5%~7%的排产效率提升,表明该优化方法具有较好的泛化能力。此外,随着决策模型复杂度的提升,传统启发式优化算法面临建模困难、求解效率低等突出问题。所提算法为该类问题的研究提供了一种新思路,有望实现深度强化学习智能决策在港口排产任务中的更广泛应用。 展开更多
关键词 码头卸车排产 调度策略优化 智能决策 深度强化学习 Duelingdoubledqn算法
下载PDF
基于双DQN和扩展卡尔曼滤波的锂离子电池荷电状态估计
14
作者 高洪森 王雪 +3 位作者 魏宏博 游国栋 侯晓鑫 赵双乐 《天津科技大学学报》 CAS 2022年第4期49-54,共6页
为了提高锂离子电池荷电状态(SOC)的估计精度,设计了一种基于双深度Q网络(双DQN)和扩展卡尔曼滤波(EKF)的锂离子电池SOC估计算法.选择锂离子电池二阶RC等效电路为研究对象,采用EKF算法重构了锂离子电池的离散系统数学模型;结合深度强化... 为了提高锂离子电池荷电状态(SOC)的估计精度,设计了一种基于双深度Q网络(双DQN)和扩展卡尔曼滤波(EKF)的锂离子电池SOC估计算法.选择锂离子电池二阶RC等效电路为研究对象,采用EKF算法重构了锂离子电池的离散系统数学模型;结合深度强化学习思想,构造了一种深度强化学习扩展卡尔曼滤波算法.该算法设计了双DQN,并对EKF参数进行优化.仿真结果表明,与DQN扩展卡尔曼滤波算法相比,双DQN扩展卡尔曼滤波算法具有更好的收敛性、自适应能力以及估计精度. 展开更多
关键词 锂离子电池 dqn 荷电状态 扩展卡尔曼滤波
下载PDF
货运铁路会让列车调度指挥与运行控制协同优化研究
15
作者 夏明 韩涛 《铁道通信信号》 2024年第7期14-20,共7页
针对既有货运铁路调度集中系统和列车运行控制系统分立设置,列车会让质量高度依赖调度员和司机的经验水平,突发事件响应慢等问题,构建货运铁路协同优化仿真系统,实现列车会让过程中调度指挥与运行控制的有机统一。首先依据货运铁路列车... 针对既有货运铁路调度集中系统和列车运行控制系统分立设置,列车会让质量高度依赖调度员和司机的经验水平,突发事件响应慢等问题,构建货运铁路协同优化仿真系统,实现列车会让过程中调度指挥与运行控制的有机统一。首先依据货运铁路列车会让过程,增加通过列车和对向列车的位置、速度,以及列车牵引制动特性、线路条件等约束,构建列车协同会让优化模型;然后采用双深度Q网络(DDQN)进行模型求解,在计算列车速度曲线和选择列车工况序列时,考虑对向列车速度和距会让点的距离,协同优化通过、会让列车的运行过程。最后以某地方铁路实际线路、列车数据为例,验证模型和算法的可行性和适应性。试验结果表明,该系统可辅助调度人员实时掌握列车运行状态,有效调整列车运行速度,提高列车会让运输效率。 展开更多
关键词 货运铁路 列车会让 调度指挥 列车运行控制 双深度Q网络 协同优化
下载PDF
基于Double Deep Q Network的无人机隐蔽接敌策略 被引量:9
16
作者 何金 丁勇 高振龙 《电光与控制》 CSCD 北大核心 2020年第7期52-57,共6页
基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络... 基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络的训练速度;设定贪婪系数按照指数下降的方法,解决了传统强化学习的“探索利用窘境”;在势函数奖赏函数设计中引入角度因子,使其更加符合实际作战情况。仿真实验结果表明,DDQN具有较好的收敛性,能有效生成隐蔽接敌策略。 展开更多
关键词 隐蔽接敌策略 空战决策 马尔可夫决策过程 双神经网络结构 ddqn算法
下载PDF
特征降维的深度强化学习脑卒中分类预测研究 被引量:4
17
作者 袁甜甜 李凤莲 +2 位作者 张雪英 胡风云 贾文辉 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第3期194-203,共10页
针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数... 针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数据集进行特征降维;基于Double DQN和Dueling DQN算法构建深度强化学习分类预测模型,引入一种更具鲁棒性的损失函数,对模型进行了优化,提高了模型的分类效果;对比已有的Naive Bayes、J48、SVM、KNN和DQN模型在公共数据集及脑卒中筛查数据集的实验结果,结果表明:所提模型在特征降维和分类预测2个方面均表现优越,在脑卒中筛查数据集上分类准确率优于对比算法,可为临床上脑卒中疾病的辅助诊断提供建议。 展开更多
关键词 特征降维 改进的CFS double Dueling dqn 损失函数 脑卒中
下载PDF
基于注意力机制的交通信号控制技术 被引量:1
18
作者 黄思萌 王梅 杨晨 《信息技术与信息化》 2023年第3期93-96,共4页
多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络(doub... 多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络(double deep Q network,double DQN)模型基础上提出了一种基于注意力机制的深度强化学习模型进行交通信号控制。将压缩激活网络(squeeze and excitation networks,SENet)注意力机制添加到三维卷积神经网络中,通过建模特征图通道间的相互依赖来增强卷积神经网络的表征质量,从而输出最优的交通信号控制动作。实验结果表明,算法表现出了良好的交通信号控制效果,且具有显著的稳定性。 展开更多
关键词 交通信号控制 智能交通系统 深度强化学习 double dqn算法 SENet注意力机制
下载PDF
基于深度强化学习的Boost变换器控制策略
19
作者 戴宇轩 崔承刚 《系统仿真学报》 CAS CSCD 北大核心 2023年第5期1109-1119,共11页
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网... 针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 展开更多
关键词 BOOST变换器 深度强化学习 ddqn算法 DDPG算法 协同仿真
下载PDF
Deep reinforcement learning for UAV swarm rendezvous behavior
20
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep Q network(ddqn)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(DRL) sparse returns
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部