期刊文献+
共找到330篇文章
< 1 2 17 >
每页显示 20 50 100
基于威胁机制-双重深度Q网络的多功能雷达认知干扰决策
1
作者 黄湘松 查力根 潘大鹏 《应用科技》 CAS 2024年第4期145-153,共9页
针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威... 针对传统深度Q网络(deep Q network,DQN)在雷达认知干扰决策中容易产生经验遗忘,从而重复执行错误决策的问题,本文提出了一种基于威胁机制双重深度Q网络(threat warning mechanism-double DQN,TW-DDQN)的认知干扰决策方法,该机制包含威胁网络和经验回放2种机制。为了验证算法的有效性,在考虑多功能雷达(multifunctional radar,MFR)工作状态与干扰样式之间的关联性的前提下,搭建了基于认知电子战的仿真环境,分析了雷达与干扰机之间的对抗博弈过程,并且在使用TW-DDQN进行训练的过程中,讨论了威胁半径与威胁步长参数的不同对训练过程的影响。仿真实验结果表明,干扰机通过自主学习成功与雷达进行了长时间的博弈,有80%的概率成功突防,训练效果明显优于传统DQN和优先经验回放DDQN(prioritized experience replay-DDQN,PER-DDQN)。 展开更多
关键词 干扰决策 认知电子战 深度q网络 强化学习 干扰机 多功能雷达 经验回放 恒虚警率探测
下载PDF
演化算法的DQN网络参数优化方法
2
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
下载PDF
一种基于深度Q网络改进的低轨卫星路由算法
3
作者 许向阳 彭文鑫 李京阳 《现代信息科技》 2024年第1期67-70,76,共5页
针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参... 针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参数。同时设置优先经验回放机制,使得算法训练中学习价值最高的样本;最后对网络进行参数的设置并且进行训练。仿真结果表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升,能有效地适应卫星节点之间链路状态高动态变化。 展开更多
关键词 卫星路由 虚拟节点 优先经验回放 深度q网络
下载PDF
基于深度Q网络的机器人路径规划研究综述 被引量:2
4
作者 卢锦澎 梁宏斌 《传感器与微系统》 CSCD 北大核心 2024年第6期1-5,共5页
随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,... 随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,系统梳理并总结了从奖励函数、探索能力、样本利用率等方面进行优化的研究成果和思路。最后,讨论了DQN在现代物流中进行机器人路径规划的优势,对每个场景提出了算法的优化方向,涵盖状态空间、动作空间以及奖励函数等多个关键方面。 展开更多
关键词 机器人 路径规划 深度q网络 现代物流
下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略
5
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
下载PDF
基于深度Q网络优化运行方式的风电场次同步振荡抑制策略
6
作者 陆文安 吴许晗 +3 位作者 余一平 李兆伟 郄朝辉 李甘 《现代电力》 北大核心 2024年第3期448-457,共10页
随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振... 随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振荡抑制策略。首先,通过时域仿真分析桨距角和串补电容对风电场次同步振荡阻尼的影响,在此基础上建立桨距角调整风机出力、并联电容调整线路串补的次同步振荡联合优化数学模型。其次,将深度Q网络算法应用于系统振荡阻尼优化求解问题,获得风电机组次同步振荡抑制优化策略,并与基于遗传算法求解的次同步振荡抑制结果对比。结果表明,该方法有效降低了振荡幅值,提升了系统的阻尼,验证了该方法的合理性和优越性。 展开更多
关键词 双馈风机 次同步振荡 深度q网络 阻尼优化 振荡抑制
下载PDF
计及稳压率和经济性的城轨直流牵引供电光储系统深度Q网络优化控制方法
7
作者 吕宗璞 戴朝华 +3 位作者 姚志刚 周斌彬 郭爱 吴磊 《电力自动化设备》 EI CSCD 北大核心 2024年第10期46-52,共7页
光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷... 光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷能量管理系统作为智能代理,通过光伏出力、储能荷电状态、牵引网压等外部状态训练代理,得到可实现系统经济可靠运行的优化策略。介绍源-储-荷综合系统的框架结构及传统控制策略,并对各设备进行外特性建模;对源-储-荷综合系统的能量管理问题开展马尔可夫决策过程建模,确立强化学习框架;根据某市域线路数据在MATLAB平台上进行仿真以验证所提方法的有效性。研究结果表明,所提方法通过动态调整储能电压阈值,可实现控制策略优化;通过与几种传统控制策略对比可知,所提方法在兼顾系统稳压水平与运行经济性方面占据优势;不同环境下的收敛效果对比体现了所提方法的可继承性,并在多组测试样本下验证了该方法的普适性。 展开更多
关键词 光伏发电 直流牵引供电系统 改进控制策略 深度强化学习 深度q网络
下载PDF
深度Q网络在月球着陆任务中的性能评估与改进
8
作者 岳颀 石伊凡 +1 位作者 褚晶 黄勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第3期396-405,共10页
基于深度Q网络(DQN)技术的强化学习方法得到越来越广泛的应用,但该类算法的性能深受多因素影响。文中以月球登陆器为例,探讨不同超参数对DQN性能的影响,在此基础上训练得到性能较优的模型。目前已知DQN模型在100个测试回合下平均奖励为2... 基于深度Q网络(DQN)技术的强化学习方法得到越来越广泛的应用,但该类算法的性能深受多因素影响。文中以月球登陆器为例,探讨不同超参数对DQN性能的影响,在此基础上训练得到性能较优的模型。目前已知DQN模型在100个测试回合下平均奖励为280+,文中模型奖励值可达到290+,并且通过在原始问题中引入额外的不确定性测试验证了文中模型的鲁棒性。另外,引入模仿学习的思想,基于启发式函数的模型指导方法获取演示数据,加快训练速度并提升性能,仿真结果证明了该方法的有效性。 展开更多
关键词 深度强化学习 深度q网络 模仿学习
下载PDF
基于深度Q网络的无人车侦察路径规划
9
作者 夏雨奇 黄炎焱 陈恰 《系统工程与电子技术》 EI CSCD 北大核心 2024年第9期3070-3081,共12页
在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结... 在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结合,通过端到端的方式生成无人侦察车的运动轨迹。针对深度Q网络学习速度慢、泛化能力差的问题,根据神经网络的训练特点提出基于经验分类的深度Q网络,并提出具有一定泛化能力的状态空间。仿真实验结果表明,相较于传统路径规划算法,所提算法规划出的路径更符合无人侦察车的运动轨迹并提升无人侦察车的学习效率和泛化能力。 展开更多
关键词 深度强化学习 无人侦察车 路径规划 深度q网络
下载PDF
一种改进的双深度Q网络服务功能链部署算法 被引量:1
10
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 双深度q网络
下载PDF
基于深度Q网络的云演艺延迟敏感业务QoE优化
11
作者 李宛青 李树锋 +1 位作者 刘健章 胡峰 《中国传媒大学学报(自然科学版)》 2024年第1期49-55,共7页
网络中的资源分配问题一直备受关注,特别是在超高清视频流的传输中,对资源的有效管理至关重要。然而,随着网络服务的多样化和不断增加的业务类型,传统的资源分配策略往往显得不够灵活和智能。深度Q网络(Deep Q-Network,DQN)是一种能够... 网络中的资源分配问题一直备受关注,特别是在超高清视频流的传输中,对资源的有效管理至关重要。然而,随着网络服务的多样化和不断增加的业务类型,传统的资源分配策略往往显得不够灵活和智能。深度Q网络(Deep Q-Network,DQN)是一种能够自适应地学习和调整资源分配策略的神经网络模型。它基于神经网络与Q-Learning算法,通过不断尝试和学习来决策最佳的资源分配方案。本文旨在研究一种在云演艺场景下基于深度Q网络的延迟敏感业务资源调度算法,以满足当今网络中多样化的业务需求。仿真结果表明,基于深度Q网络的延迟敏感业务资源调度算法使得用户体验质量(Quality of Experience)指标显著提升,表明所提算法能够更好地满足延迟敏感业务的需求。 展开更多
关键词 深度q网络 资源调度 延迟敏感业务 用户体验 网络资源分配
下载PDF
基于认知行为模型的启发加速深度Q网络
12
作者 李嘉祥 陈浩 +1 位作者 黄健 张中杰 《计算机应用与软件》 北大核心 2024年第9期148-155,共8页
由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能... 由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能体学习的问题。该算法将启发知识建模为基于BDI(Belief-Desire-Intention)的认知行为模型,用于产生认知行为知识引导智能体策略学习,设计启发策略网络在线引导智能体的动作选择。GYM典型环境与星际争霸2环境下实验表明,该算法可以根据环境变化动态提取有效的认知行为知识,并借助启发策略网络加速智能体策略收敛。 展开更多
关键词 强化学习 认知行为模型 启发加速深度q网络
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
13
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度q网络(DDqN)算法
下载PDF
基于多智能体深度Q网络交互的板壳加强筋生长式设计
14
作者 钟意 杨勇 +3 位作者 姜学涛 潘顺洋 朱其新 王磊 《中国机械工程》 EI CAS CSCD 北大核心 2024年第8期1397-1404,共8页
基于板壳加强筋生长步序列的马尔可夫性质,提出了板壳加强筋生长式设计的强化学习驱动策略。以结构整体应变能最小化为目标,运用马尔可夫决策过程对板壳加强筋的生长过程进行建模。通过引入多智能体系统,共享加强筋生长式过程的状态奖... 基于板壳加强筋生长步序列的马尔可夫性质,提出了板壳加强筋生长式设计的强化学习驱动策略。以结构整体应变能最小化为目标,运用马尔可夫决策过程对板壳加强筋的生长过程进行建模。通过引入多智能体系统,共享加强筋生长式过程的状态奖励并记忆特定动作,降低学习复杂度,实现了加强筋生长式过程奖励值的波动收敛,达成板壳加强筋生长式设计策略。最后给出算例并将平滑处理后的加强筋布局与经典算法的设计结果进行对比,验证了基于多智能体深度Q网络交互的板壳加强筋生长式设计的有效性。 展开更多
关键词 板壳加强筋 生长式 多智能体深度q网络 布局设计 强化学习
下载PDF
基于深度Q网络的海上环境智能路径规划
15
作者 李鹏程 周远国 杨国卿 《电子测量技术》 北大核心 2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研... 深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。 展开更多
关键词 改进深度q网络 海上模拟仿真环境 航海优先级 奖赏函数
下载PDF
基于对决深度Q网络的机器人自适应PID恒力跟踪研究
16
作者 杜亮 梅雪川 《机床与液压》 北大核心 2024年第15期50-54,共5页
为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该... 为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该算法利用对决深度Q网络自主学习、寻找最优的控制参数;最后,通过Coopeliasim与MATLAB软件平台展开机器人恒力跟踪实验。仿真结果表明:提出的基于对决深度Q网络的自适应PID算法能够获得较好的力跟踪效果,验证了算法的可行性;相比于深度Q网络算法,力误差绝对值的平均值减少了51.6%,且收敛速度得到提升,使机器人能够更好地跟踪外界环境。 展开更多
关键词 机器人 恒力控制 自适应PID控制 对决深度q网络
下载PDF
基于长短期记忆-深度Q值网络的异构机器人煤矸协同分选方法
17
作者 张杰 夏蕊 +3 位作者 李博 王学文 李娟莉 徐文军 《中国粉体技术》 CAS CSCD 2024年第3期28-38,共11页
【目的】提高传统的单一类别煤矸分选机器人在面对形状、尺寸差异较大的矸石时的适应性,分析异构机器人工作特性,实现异构机器人协同分选。【方法】基于深度Q值网络(deep Q network,DQN)提出异构机器人协同分选模型;分析协同工作分选流... 【目的】提高传统的单一类别煤矸分选机器人在面对形状、尺寸差异较大的矸石时的适应性,分析异构机器人工作特性,实现异构机器人协同分选。【方法】基于深度Q值网络(deep Q network,DQN)提出异构机器人协同分选模型;分析协同工作分选流程制定决策框架,根据强化学习所需,设计交互环境,构建智能体连续的状态空间奖惩函数,长短期记忆网络(long short term memory,LTSM)和全连接网络相结合,构建DQN价值和目标网络,实现强化学习模型在工作过程中的任务分配。【结果】协同分选模型与传统顺序分配模型相比,在不同含矸率工作负载下,可提高分选效益0.49%~17.74%;在样本含矸率为21.61%,传送带速度为0.4~0.6 m/s的条件下,可提高分选效率2.41%~8.98%。【结论】异构机器人协同分选方法可以在不同的工作负载下获得稳定的分拣效益,避免单一分配方案无法适应动态变化的矸石流缺陷。 展开更多
关键词 异构机器人 协同分选 强化学习 长短期记忆网络 深度q网络
下载PDF
基于深度Q网络算法的卫星边缘卸载策略
18
作者 王军选 王月雯 高阔阔 《西安邮电大学学报》 2024年第1期1-9,共9页
在星地融合网络中,为了降低用户卸载计算任务的时延和能耗,将边缘计算(Mobile Edge Computing, MEC)技术与星地协同网络结合,提出一种基于深度Q网络(Deep Q-Network, DQN)算法的卫星边缘卸载策略。在卫星网络边缘部署MEC服务器,将中心... 在星地融合网络中,为了降低用户卸载计算任务的时延和能耗,将边缘计算(Mobile Edge Computing, MEC)技术与星地协同网络结合,提出一种基于深度Q网络(Deep Q-Network, DQN)算法的卫星边缘卸载策略。在卫星网络边缘部署MEC服务器,将中心处理单元(Central Processing Unit, CPU)设为可与周围环境交互的智能体,建立任务卸载时延和能耗加权和最小化问题。为求解该非凸优化问题,将其转化为马尔科夫决策过程,确立对应的状态空间、动作空间和奖励函数及策略更新函数,寻求最优解。仿真结果表明,与基于Q学习(Q-learning)策略和基于演员家-评论家(Actor-Critic, AC)策略进行对比,所提策略可以有效地增加系统的平均回报值,降低系统开销。 展开更多
关键词 移动边缘计算 高地球轨道卫星 低地球轨道卫星 深度q网络 马尔科夫决策过程 第六代移动通信系统
下载PDF
基于改进深度Q网络的无人机巡视三维路径规划方法研究
19
作者 李海 何思名 +3 位作者 蓝誉鑫 李晨 冉杨 徐敏 《自动化应用》 2024年第19期18-23,27,共7页
针对传统无人机路径规划算法存在的算法维度高、建模困难、效率低等问题,研究了一种基于改进深度Q网络的无人机三维路径规划算法。在该算法中,基于卷积神经网络构建了深度Q网络;为提高网络对关键地形信息的提取,设计了注意力增强模型;... 针对传统无人机路径规划算法存在的算法维度高、建模困难、效率低等问题,研究了一种基于改进深度Q网络的无人机三维路径规划算法。在该算法中,基于卷积神经网络构建了深度Q网络;为提高网络对关键地形信息的提取,设计了注意力增强模型;为实现综合优化飞行路程与能耗,设计了奖励函数。针对传统深度强化算法存在的网络收敛困难等问题,设计了组合探索策略。将该算法与A*算法进行对比,从定性和定量角度验证了该算法可以实现权衡路程与能耗的无人机路径规划,并显著提高规划效率。 展开更多
关键词 无人机 路径规划 三维环境 深度q网络 注意力增强模型
下载PDF
基于模糊深度Q网络的放煤智能决策方法 被引量:2
20
作者 杨艺 王圣文 +1 位作者 崔科飞 费树岷 《工矿自动化》 CSCD 北大核心 2023年第4期78-85,共8页
在综放工作面放煤过程中,由于煤尘和降尘水雾对工作人员视线的影响,人工控制放煤存在过放、欠放问题。针对该问题,将液压支架尾梁看作智能体,把放煤过程抽象为马尔可夫最优决策,利用深度Q网络(DQN)对放煤口动作进行决策。然而DQN算法中... 在综放工作面放煤过程中,由于煤尘和降尘水雾对工作人员视线的影响,人工控制放煤存在过放、欠放问题。针对该问题,将液压支架尾梁看作智能体,把放煤过程抽象为马尔可夫最优决策,利用深度Q网络(DQN)对放煤口动作进行决策。然而DQN算法中存在过估计问题,因此提出了一种模糊深度Q网络(FDQN)算法,并应用于放煤智能决策。利用放煤过程中煤层状态的模糊特征构建模糊控制系统,以煤层状态中的煤炭数量和煤矸比例作为模糊控制系统的输入,并将模糊控制系统的输出动作代替DQN算法采用max操作选取目标网络输出Q值的动作,从而提高智能体的在线学习速率和增加放煤动作奖赏值。搭建综放工作面放煤模型,对分别基于DQN算法、双深度Q网络(DDQN)算法、FDQN算法的放煤工艺进行三维数值仿真,结果表明:FDQN算法的收敛速度最快,相对于DQN算法提高了31.6%,增加了智能体的在线学习速率;综合煤矸分界线直线度、尾梁上方余煤和放出体中的矸石数量3个方面,基于FDQN算法的放煤效果最好;基于FDQN算法的采出率最高、含矸率最低,相比基于DQN算法、DDQN算法的采出率分别提高了2.8%,0.7%,含矸率分别降低了2.1%,13.2%。基于FDQN算法的放煤智能决策方法可根据煤层赋存状态对液压支架尾梁动作进行调整,较好地解决了放煤过程中的过放、欠放问题。 展开更多
关键词 综放工作面 智能放煤 深度强化学习 模糊深度q网络 模糊控制 马尔可夫
下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部