期刊文献+
共找到272篇文章
< 1 2 14 >
每页显示 20 50 100
一种基于深度Q网络改进的低轨卫星路由算法
1
作者 许向阳 彭文鑫 李京阳 《现代信息科技》 2024年第1期67-70,76,共5页
针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参... 针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参数。同时设置优先经验回放机制,使得算法训练中学习价值最高的样本;最后对网络进行参数的设置并且进行训练。仿真结果表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升,能有效地适应卫星节点之间链路状态高动态变化。 展开更多
关键词 卫星路由 虚拟节点 优先经验回放 深度q网络
下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略
2
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
下载PDF
基于深度Q网络优化运行方式的风电场次同步振荡抑制策略
3
作者 陆文安 吴许晗 +3 位作者 余一平 李兆伟 郄朝辉 李甘 《现代电力》 北大核心 2024年第3期448-457,共10页
随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振... 随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振荡抑制策略。首先,通过时域仿真分析桨距角和串补电容对风电场次同步振荡阻尼的影响,在此基础上建立桨距角调整风机出力、并联电容调整线路串补的次同步振荡联合优化数学模型。其次,将深度Q网络算法应用于系统振荡阻尼优化求解问题,获得风电机组次同步振荡抑制优化策略,并与基于遗传算法求解的次同步振荡抑制结果对比。结果表明,该方法有效降低了振荡幅值,提升了系统的阻尼,验证了该方法的合理性和优越性。 展开更多
关键词 双馈风机 次同步振荡 深度q网络 阻尼优化 振荡抑制
下载PDF
基于深度Q网络的机器人路径规划研究综述
4
作者 卢锦澎 梁宏斌 《传感器与微系统》 CSCD 北大核心 2024年第6期1-5,共5页
随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,... 随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,系统梳理并总结了从奖励函数、探索能力、样本利用率等方面进行优化的研究成果和思路。最后,讨论了DQN在现代物流中进行机器人路径规划的优势,对每个场景提出了算法的优化方向,涵盖状态空间、动作空间以及奖励函数等多个关键方面。 展开更多
关键词 机器人 路径规划 深度q网络 现代物流
下载PDF
基于深度Q网络的云演艺延迟敏感业务QoE优化
5
作者 李宛青 李树锋 +1 位作者 刘健章 胡峰 《中国传媒大学学报(自然科学版)》 2024年第1期49-55,共7页
网络中的资源分配问题一直备受关注,特别是在超高清视频流的传输中,对资源的有效管理至关重要。然而,随着网络服务的多样化和不断增加的业务类型,传统的资源分配策略往往显得不够灵活和智能。深度Q网络(Deep Q-Network,DQN)是一种能够... 网络中的资源分配问题一直备受关注,特别是在超高清视频流的传输中,对资源的有效管理至关重要。然而,随着网络服务的多样化和不断增加的业务类型,传统的资源分配策略往往显得不够灵活和智能。深度Q网络(Deep Q-Network,DQN)是一种能够自适应地学习和调整资源分配策略的神经网络模型。它基于神经网络与Q-Learning算法,通过不断尝试和学习来决策最佳的资源分配方案。本文旨在研究一种在云演艺场景下基于深度Q网络的延迟敏感业务资源调度算法,以满足当今网络中多样化的业务需求。仿真结果表明,基于深度Q网络的延迟敏感业务资源调度算法使得用户体验质量(Quality of Experience)指标显著提升,表明所提算法能够更好地满足延迟敏感业务的需求。 展开更多
关键词 深度q网络 资源调度 延迟敏感业务 用户体验 网络资源分配
下载PDF
一种改进的双深度Q网络服务功能链部署算法
6
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 深度q网络
下载PDF
基于长短期记忆-深度Q值网络的异构机器人煤矸协同分选方法
7
作者 张杰 夏蕊 +3 位作者 李博 王学文 李娟莉 徐文军 《中国粉体技术》 CAS CSCD 2024年第3期28-38,共11页
【目的】提高传统的单一类别煤矸分选机器人在面对形状、尺寸差异较大的矸石时的适应性,分析异构机器人工作特性,实现异构机器人协同分选。【方法】基于深度Q值网络(deep Q network,DQN)提出异构机器人协同分选模型;分析协同工作分选流... 【目的】提高传统的单一类别煤矸分选机器人在面对形状、尺寸差异较大的矸石时的适应性,分析异构机器人工作特性,实现异构机器人协同分选。【方法】基于深度Q值网络(deep Q network,DQN)提出异构机器人协同分选模型;分析协同工作分选流程制定决策框架,根据强化学习所需,设计交互环境,构建智能体连续的状态空间奖惩函数,长短期记忆网络(long short term memory,LTSM)和全连接网络相结合,构建DQN价值和目标网络,实现强化学习模型在工作过程中的任务分配。【结果】协同分选模型与传统顺序分配模型相比,在不同含矸率工作负载下,可提高分选效益0.49%~17.74%;在样本含矸率为21.61%,传送带速度为0.4~0.6 m/s的条件下,可提高分选效率2.41%~8.98%。【结论】异构机器人协同分选方法可以在不同的工作负载下获得稳定的分拣效益,避免单一分配方案无法适应动态变化的矸石流缺陷。 展开更多
关键词 异构机器人 协同分选 强化学习 长短期记忆网络 深度q网络
下载PDF
基于深度Q网络的海上环境智能路径规划
8
作者 李鹏程 周远国 杨国卿 《电子测量技术》 北大核心 2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研... 深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。 展开更多
关键词 改进深度q网络 海上模拟仿真环境 航海优先级 奖赏函数
下载PDF
基于深度Q网络算法的卫星边缘卸载策略
9
作者 王军选 王月雯 高阔阔 《西安邮电大学学报》 2024年第1期1-9,共9页
在星地融合网络中,为了降低用户卸载计算任务的时延和能耗,将边缘计算(Mobile Edge Computing, MEC)技术与星地协同网络结合,提出一种基于深度Q网络(Deep Q-Network, DQN)算法的卫星边缘卸载策略。在卫星网络边缘部署MEC服务器,将中心... 在星地融合网络中,为了降低用户卸载计算任务的时延和能耗,将边缘计算(Mobile Edge Computing, MEC)技术与星地协同网络结合,提出一种基于深度Q网络(Deep Q-Network, DQN)算法的卫星边缘卸载策略。在卫星网络边缘部署MEC服务器,将中心处理单元(Central Processing Unit, CPU)设为可与周围环境交互的智能体,建立任务卸载时延和能耗加权和最小化问题。为求解该非凸优化问题,将其转化为马尔科夫决策过程,确立对应的状态空间、动作空间和奖励函数及策略更新函数,寻求最优解。仿真结果表明,与基于Q学习(Q-learning)策略和基于演员家-评论家(Actor-Critic, AC)策略进行对比,所提策略可以有效地增加系统的平均回报值,降低系统开销。 展开更多
关键词 移动边缘计算 高地球轨道卫星 低地球轨道卫星 深度q网络 马尔科夫决策过程 第六代移动通信系统
下载PDF
基于模糊深度Q网络的放煤智能决策方法 被引量:1
10
作者 杨艺 王圣文 +1 位作者 崔科飞 费树岷 《工矿自动化》 CSCD 北大核心 2023年第4期78-85,共8页
在综放工作面放煤过程中,由于煤尘和降尘水雾对工作人员视线的影响,人工控制放煤存在过放、欠放问题。针对该问题,将液压支架尾梁看作智能体,把放煤过程抽象为马尔可夫最优决策,利用深度Q网络(DQN)对放煤口动作进行决策。然而DQN算法中... 在综放工作面放煤过程中,由于煤尘和降尘水雾对工作人员视线的影响,人工控制放煤存在过放、欠放问题。针对该问题,将液压支架尾梁看作智能体,把放煤过程抽象为马尔可夫最优决策,利用深度Q网络(DQN)对放煤口动作进行决策。然而DQN算法中存在过估计问题,因此提出了一种模糊深度Q网络(FDQN)算法,并应用于放煤智能决策。利用放煤过程中煤层状态的模糊特征构建模糊控制系统,以煤层状态中的煤炭数量和煤矸比例作为模糊控制系统的输入,并将模糊控制系统的输出动作代替DQN算法采用max操作选取目标网络输出Q值的动作,从而提高智能体的在线学习速率和增加放煤动作奖赏值。搭建综放工作面放煤模型,对分别基于DQN算法、双深度Q网络(DDQN)算法、FDQN算法的放煤工艺进行三维数值仿真,结果表明:FDQN算法的收敛速度最快,相对于DQN算法提高了31.6%,增加了智能体的在线学习速率;综合煤矸分界线直线度、尾梁上方余煤和放出体中的矸石数量3个方面,基于FDQN算法的放煤效果最好;基于FDQN算法的采出率最高、含矸率最低,相比基于DQN算法、DDQN算法的采出率分别提高了2.8%,0.7%,含矸率分别降低了2.1%,13.2%。基于FDQN算法的放煤智能决策方法可根据煤层赋存状态对液压支架尾梁动作进行调整,较好地解决了放煤过程中的过放、欠放问题。 展开更多
关键词 综放工作面 智能放煤 深度强化学习 模糊深度q网络 模糊控制 马尔可夫
下载PDF
演化算法的DQN网络参数优化方法
11
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
下载PDF
基于改进深度Q网络算法的移动机器人路径规划
12
作者 臧强 徐博文 +1 位作者 李宁 张国林 《中国科技论文》 CAS 北大核心 2023年第3期231-237,共7页
针对深度Q网络(deep Q-network,DQN)算法收敛速度慢、规划路径不平滑及样本利用率低的问题,对其进行了改进。首先,在DQN算法的动作引导策略中引入了改进的人工势场引力函数和目标引导动作函数,同时设计了一种分段奖励函数,以此提出了启... 针对深度Q网络(deep Q-network,DQN)算法收敛速度慢、规划路径不平滑及样本利用率低的问题,对其进行了改进。首先,在DQN算法的动作引导策略中引入了改进的人工势场引力函数和目标引导动作函数,同时设计了一种分段奖励函数,以此提出了启发式深度Q网络(heuristic deep Q-network,HDQN)算法,有效地减少了算法训练过程中的碰撞次数,提高了算法的收敛速度,使规划出的路径更优。然后,将HDQN算法与改进的优先级采样策略相结合,提出了一种贪心采样的启发式深度Q网络(greedy sampling heuristic deep Q-network,GSHDQN)算法,有效地提高了样本利用率。最后,对DQN、HDQN、GSHDQN这3种算法在Ubuntu系统进行了路径规划仿真。仿真结果表明,与DQN算法相比,GSHDQN算法平均总迭代时间可降低28.0%,平均路径长度可减少34.7%,碰撞次数可减少32.4%。 展开更多
关键词 深度q网络 路径规划 人工势场 优先级采样
下载PDF
基于竞争双深度Q网络的频谱感知和接入
13
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争双深度q网络
下载PDF
基于深度Q网络的风光柴储微电网能量管理策略
14
作者 刘向杰 刘梓安 +1 位作者 孔小兵 马乐乐 《控制工程》 CSCD 北大核心 2023年第8期1538-1547,共10页
微电网能量管理对保障微电网安全、经济运行具有至关重要的作用。综合考虑可再生能源出力及用户负荷需求,提出了一种基于深度Q网络的微电网能量管理策略。针对日前调度中光伏功率的随机特性,利用随机规划生成不同概率下的光伏出力场景... 微电网能量管理对保障微电网安全、经济运行具有至关重要的作用。综合考虑可再生能源出力及用户负荷需求,提出了一种基于深度Q网络的微电网能量管理策略。针对日前调度中光伏功率的随机特性,利用随机规划生成不同概率下的光伏出力场景。将其与风电功率、负荷功率、市场电价和蓄电池荷电状态等一同构成环境信息,并通过深度Q网络与环境信息的交互优化微电网运行指标。仿真结果表明,所提出的能量管理策略能够降低设备的安全指标成本,并提高可再生能源的利用率。在光伏出力随机性较强的场景中,证实了基于随机规划的深度Q网络管理策略具备突出的适应能力。 展开更多
关键词 微电网 能量管理 深度q网络 随机规划 光伏出力场景
下载PDF
基于双深度Q学习网络的面向设备负荷稳定的智能车间调度方法 被引量:2
15
作者 黎声益 马玉敏 刘鹃 《计算机集成制造系统》 EI CSCD 北大核心 2023年第1期91-99,共9页
在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度... 在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度智能体,分析车间生产状态与设备负荷间的相关性,及时输出满足期望目标的调度方案。针对深度神经网络调度模型,设计了一个基于双深度Q学习网络(DDQN)的深度神经网络调度模型训练器,其利用奖惩学习免监督地形成调度样本,借此对深度神经网络调度模型进行网络参数更新,实现模型自学习。所提方法在MiniFab半导体生产车间模型中进行了验证,证明了所提调度方法能实现对智能车间设备负荷的控制,从而保证车间整体设备负荷的稳定性。 展开更多
关键词 智能车间 设备负荷 调度 深度q学习网络
下载PDF
基于时空感知增强的深度Q网络无人水面艇局部路径规划 被引量:1
16
作者 张目 唐俊 +2 位作者 杨友波 陈雨 雷印杰 《计算机应用研究》 CSCD 北大核心 2023年第5期1330-1334,共5页
无人水面艇局部路径规划在海事救援、海洋运输等领域中发挥着重要的作用。现有局部路径规划算法在简单场景中取得了不错的效果,但面对环境中存在的复杂障碍物和海流干扰时,性能表现较差。为此,提出了一种基于时空感知增强的深度Q网络强... 无人水面艇局部路径规划在海事救援、海洋运输等领域中发挥着重要的作用。现有局部路径规划算法在简单场景中取得了不错的效果,但面对环境中存在的复杂障碍物和海流干扰时,性能表现较差。为此,提出了一种基于时空感知增强的深度Q网络强化学习算法,首先,引入多尺度空间注意力模块捕捉距离传感器的多尺度空间信息,提升了复杂障碍物环境的感知能力;其次,利用基于长短时记忆网络的海流感知模块提取海流干扰环境的时间序列特征,增强了对海流干扰的感知能力;此外,对无人水面艇传感器和运动模型进行了模拟,并设计了强化学习状态空间、动作空间和基于方向导引的奖励函数,提升了算法的导航性能和收敛速度。在复杂仿真场景中进行了实验,结果表明,所提算法相比于原始算法在导航成功率和平均到达时间两个指标上均得到了提升,算法表现出较强的复杂环境适应性。 展开更多
关键词 局部路径规划 复杂障碍物 海流干扰 深度q网络 多尺度空间注意力 奖励函数
下载PDF
基于深度Q网络的多起点多终点AGV路径规划 被引量:1
17
作者 黄岩松 姚锡凡 +1 位作者 景轩 胡晓阳 《计算机集成制造系统》 EI CSCD 北大核心 2023年第8期2550-2562,共13页
自动引导小车(AGV)在工厂中承担不同节点之间的物料运输工作,在考虑全局路径最优的情况下需要对AGV进行多起点多终点的路径规划。针对现有深度强化学习算法研究多考虑单起点达到单终点的路径规划情况,涉及多起点多终点的情况时泛化性能... 自动引导小车(AGV)在工厂中承担不同节点之间的物料运输工作,在考虑全局路径最优的情况下需要对AGV进行多起点多终点的路径规划。针对现有深度强化学习算法研究多考虑单起点达到单终点的路径规划情况,涉及多起点多终点的情况时泛化性能较差的问题,提出一种基于深度Q网络(DQN)的AGV全局路径规划求解模型。首先通过改进算法的输入的AGV状态和改进奖励函数的设置提升算法收敛的效率;再利用改变训练初始点位置的方式提升数据的丰富度和模型对环境的感知程度,并以此提升模型对不同起点单个终点环境下路径规划的泛化能力;最后在训练过程中插入不同终点下AGV的状态数据,以获得模型对多终点路径规划的能力。通过在不同规模环境下的仿真与A^(*)算法和快速扩展随机树算法的对比实验和模型的扩展性实验,验证了该方法在多终点情况下的路径规划能力。 展开更多
关键词 深度强化学习 深度q网络 多终点 自动引导小车 路径规划
下载PDF
基于深度Q学习的无线传感器网络目标覆盖问题算法
18
作者 高思华 顾晗 +1 位作者 贺怀清 周钢 《吉林大学学报(理学版)》 CAS 北大核心 2023年第6期1432-1440,共9页
针对求解无线传感器网络目标覆盖问题过程中存在的节点激活策略机理不明确、可行解集存在冗余等问题,提出一种基于深度Q学习的目标覆盖算法,学习无线传感器网络中节点的调度策略.首先,算法将构建可行解集抽象成Markov决策过程,智能体根... 针对求解无线传感器网络目标覆盖问题过程中存在的节点激活策略机理不明确、可行解集存在冗余等问题,提出一种基于深度Q学习的目标覆盖算法,学习无线传感器网络中节点的调度策略.首先,算法将构建可行解集抽象成Markov决策过程,智能体根据网络环境选择被激活的传感器节点作为离散动作;其次,奖励函数从激活节点的覆盖能力和自身剩余能量考虑,评价智能体选择动作的优劣.仿真实验结果表明,该算法在不同规模的网络环境下均有效,网络生命周期均优于3种贪婪算法、最大寿命覆盖率算法和自适应学习自动机算法. 展开更多
关键词 目标覆盖问题 深度q学习 无线传感器网络 强化学习
下载PDF
基于深度强化学习的网络流量分析与入侵检测
19
作者 张永东 《信息记录材料》 2024年第3期173-175,共3页
本研究针对网络安全领域的网络入侵检测问题,提出了一种基于深度强化学习的创新性解决方案。通过构建深度Q网络(deep Q network,DQN)作为主要模型,将其应用于网络流量分析与入侵检测任务。实验中使用NSL⁃KDD数据集进行模型的训练与测试... 本研究针对网络安全领域的网络入侵检测问题,提出了一种基于深度强化学习的创新性解决方案。通过构建深度Q网络(deep Q network,DQN)作为主要模型,将其应用于网络流量分析与入侵检测任务。实验中使用NSL⁃KDD数据集进行模型的训练与测试。在实验结果分析中,与传统深度神经网络(deep neural network,DNN)相比,DQN在准确率、精确度和召回率等性能指标上均取得了显著的提升。通过智能系统与环境的交互学习,DQN在网络入侵检测中展现出更高的智能性和准确性。实验结果为基于强化学习的网络安全技术提供了有力的支持,为未来网络入侵检测研究与应用提供了新的思路与方法。 展开更多
关键词 深度强化学习 入侵检测 深度q网络 流量分析
下载PDF
基于攻击图和深度Q学习网络的自动化安全分析与渗透测试模型
20
作者 樊成 胡国庆 +1 位作者 丁涛杰 张展华 《网络与信息安全学报》 2023年第6期166-175,共10页
随着网络技术的快速发展和广泛应用,网络安全问题日益突出,渗透测试成为评估和提升网络安全性的重要手段。然而,传统的人工渗透测试方法效率较低,且易受到人为错误和测试人员技能水平的影响,造成测试结果不确定性大、评估效果不理想等... 随着网络技术的快速发展和广泛应用,网络安全问题日益突出,渗透测试成为评估和提升网络安全性的重要手段。然而,传统的人工渗透测试方法效率较低,且易受到人为错误和测试人员技能水平的影响,造成测试结果不确定性大、评估效果不理想等问题。针对以上人工渗透测试中存在的问题,提出了基于攻击图和深度Q学习网络(DQN,deepQ-learningnetwork)的自动化安全分析与渗透测试(ASAPT,autonomous security analysis and penetration testing)模型。该模型由训练数据构建和模型训练两部分构成。在训练数据构建阶段,采用攻击图对目标网络进行威胁建模,将网络中存在的漏洞和攻击者可能的攻击路径转化为节点、边,随后结合CVSS(commonvulnerabilityscoringsystem)漏洞信息库构建对应的“状态-动作”转移矩阵,用以描述攻击者在不同状态下的攻击行为和转移概率,并全面反映攻击者的攻击能力和网络的安全状况。为进一步降低计算复杂度,创新性地使用深度优先搜索算法对转移矩阵进行简化,查找并保留所有能达到最终目标的攻击路径,以便于后续模型训练。在模型训练阶段,使用基于DQN的深度强化学习算法对渗透测试中的最优攻击路径进行确定,该算法通过不断与环境交互、更新Q值函数,从而逐步优化攻击路径选择。仿真结果表明,ASAPT模型在最优路径寻找方面准确率可达84%,收敛速度快,并且在面对大规模网络环境时,相较于传统Q学习具有更好的适应性,能够为实际的渗透测试提供指导。 展开更多
关键词 自动化渗透测试 强化学习 攻击图 深度q学习网络
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部