期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
基于深度Q学习的网络入侵检测强化学习方法
1
作者 魏明锐 《兰州文理学院学报(自然科学版)》 2024年第5期42-47,共6页
提出了一种基于Q学习的网络入侵检测方法,将强化学习与深度前馈神经网络方法相结合,为网络环境提供了持续的自主学习能力.同时,使用自动试错方法检测不同类型的网络入侵,并不断增强其检测能力.此外,还提供了微调深度Q学习模型中涉及的... 提出了一种基于Q学习的网络入侵检测方法,将强化学习与深度前馈神经网络方法相结合,为网络环境提供了持续的自主学习能力.同时,使用自动试错方法检测不同类型的网络入侵,并不断增强其检测能力.此外,还提供了微调深度Q学习模型中涉及的不同超参数的细节,以实现更有效的自适应学习.基于NSL-KDD数据集的大量实验结果表明,提出的深度Q学习模型能效检测不同的网络入侵类型,检测准确率优于其他机器学习方法. 展开更多
关键词 深度q学习 网络入侵检测 强化学习
下载PDF
基于双深度Q学习网络的面向设备负荷稳定的智能车间调度方法 被引量:2
2
作者 黎声益 马玉敏 刘鹃 《计算机集成制造系统》 EI CSCD 北大核心 2023年第1期91-99,共9页
在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度... 在车间管理中,设备负荷是一个关键性能指标,负荷稳定直接影响了生产效率与生产成本,但目前鲜有研究关注如何实现设备负荷稳定的问题。为此,提出一种面向设备负荷稳定的智能车间调度方法。该方法通过一个含有深度神经网络调度模型的调度智能体,分析车间生产状态与设备负荷间的相关性,及时输出满足期望目标的调度方案。针对深度神经网络调度模型,设计了一个基于双深度Q学习网络(DDQN)的深度神经网络调度模型训练器,其利用奖惩学习免监督地形成调度样本,借此对深度神经网络调度模型进行网络参数更新,实现模型自学习。所提方法在MiniFab半导体生产车间模型中进行了验证,证明了所提调度方法能实现对智能车间设备负荷的控制,从而保证车间整体设备负荷的稳定性。 展开更多
关键词 智能车间 设备负荷 调度 深度q学习网络
下载PDF
基于深度Q学习的无线传感器网络目标覆盖问题算法
3
作者 高思华 顾晗 +1 位作者 贺怀清 周钢 《吉林大学学报(理学版)》 CAS 北大核心 2023年第6期1432-1440,共9页
针对求解无线传感器网络目标覆盖问题过程中存在的节点激活策略机理不明确、可行解集存在冗余等问题,提出一种基于深度Q学习的目标覆盖算法,学习无线传感器网络中节点的调度策略.首先,算法将构建可行解集抽象成Markov决策过程,智能体根... 针对求解无线传感器网络目标覆盖问题过程中存在的节点激活策略机理不明确、可行解集存在冗余等问题,提出一种基于深度Q学习的目标覆盖算法,学习无线传感器网络中节点的调度策略.首先,算法将构建可行解集抽象成Markov决策过程,智能体根据网络环境选择被激活的传感器节点作为离散动作;其次,奖励函数从激活节点的覆盖能力和自身剩余能量考虑,评价智能体选择动作的优劣.仿真实验结果表明,该算法在不同规模的网络环境下均有效,网络生命周期均优于3种贪婪算法、最大寿命覆盖率算法和自适应学习自动机算法. 展开更多
关键词 目标覆盖问题 深度q学习 无线传感器网络 强化学习
下载PDF
基于攻击图和深度Q学习网络的自动化安全分析与渗透测试模型
4
作者 樊成 胡国庆 +1 位作者 丁涛杰 张展华 《网络与信息安全学报》 2023年第6期166-175,共10页
随着网络技术的快速发展和广泛应用,网络安全问题日益突出,渗透测试成为评估和提升网络安全性的重要手段。然而,传统的人工渗透测试方法效率较低,且易受到人为错误和测试人员技能水平的影响,造成测试结果不确定性大、评估效果不理想等... 随着网络技术的快速发展和广泛应用,网络安全问题日益突出,渗透测试成为评估和提升网络安全性的重要手段。然而,传统的人工渗透测试方法效率较低,且易受到人为错误和测试人员技能水平的影响,造成测试结果不确定性大、评估效果不理想等问题。针对以上人工渗透测试中存在的问题,提出了基于攻击图和深度Q学习网络(DQN,deepQ-learningnetwork)的自动化安全分析与渗透测试(ASAPT,autonomous security analysis and penetration testing)模型。该模型由训练数据构建和模型训练两部分构成。在训练数据构建阶段,采用攻击图对目标网络进行威胁建模,将网络中存在的漏洞和攻击者可能的攻击路径转化为节点、边,随后结合CVSS(commonvulnerabilityscoringsystem)漏洞信息库构建对应的“状态-动作”转移矩阵,用以描述攻击者在不同状态下的攻击行为和转移概率,并全面反映攻击者的攻击能力和网络的安全状况。为进一步降低计算复杂度,创新性地使用深度优先搜索算法对转移矩阵进行简化,查找并保留所有能达到最终目标的攻击路径,以便于后续模型训练。在模型训练阶段,使用基于DQN的深度强化学习算法对渗透测试中的最优攻击路径进行确定,该算法通过不断与环境交互、更新Q值函数,从而逐步优化攻击路径选择。仿真结果表明,ASAPT模型在最优路径寻找方面准确率可达84%,收敛速度快,并且在面对大规模网络环境时,相较于传统Q学习具有更好的适应性,能够为实际的渗透测试提供指导。 展开更多
关键词 自动化渗透测试 强化学习 攻击图 深度q学习网络
下载PDF
一种基于深度Q学习的移动Ad Hoc路由协议
5
作者 倪少峰 梁海涛 +1 位作者 李祖健 吴明香 《信息技术》 2023年第11期138-142,共5页
针对认知无线电-移动Ad Hoc网络,提出基于深度Q学习的移动Ad Hoc路由协议(DQRM)。DQRM路由先利用节点的剩余能量以及移动速度计算成本,再利用深度Q学习计算节点的Q值。在发现路由阶段时,源节点从邻居节点中选择具有最低Q值的节点传输RRE... 针对认知无线电-移动Ad Hoc网络,提出基于深度Q学习的移动Ad Hoc路由协议(DQRM)。DQRM路由先利用节点的剩余能量以及移动速度计算成本,再利用深度Q学习计算节点的Q值。在发现路由阶段时,源节点从邻居节点中选择具有最低Q值的节点传输RREQ包;利用单播方式传输RREQ包发现路由,降低了控制开销;目的节点收到RREQ包,沿着传输RREQ包的路径向源节点回复RREP包。仿真结果表明,提出的DQRM路由降低了控制开销,并提高了数据包传递率。 展开更多
关键词 认知无线电-移动自组网 路由 深度q学习 成本 控制开销
下载PDF
移动边缘网络中基于双深度Q学习的高能效资源分配方法 被引量:9
6
作者 喻鹏 张俊也 +4 位作者 李文璟 周凡钦 丰雷 付澍 邱雪松 《通信学报》 EI CSCD 北大核心 2020年第12期148-161,共14页
为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设... 为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设置任务时延和通信、计算、存储资源限制等约束条件,构建了对应的资源分配模型。依据模型特征,基于DDQL框架,提出了适用于通信和计算资源智能决策、存储资源按需分配的资源分配模型和算法。仿真结果表明,所提出的基于DDQL资源分配方法可以有效地解决多任务资源分配问题,具有较好的收敛性和较低的时间复杂度,在保障业务服务质量的同时,相对于基于随机算法、贪心算法、粒子群优化算法、深度Q学习等方法,降低了至少5%的任务平均能耗。 展开更多
关键词 移动边缘网络 融合资源分配 高能效 深度q学习
下载PDF
一种车载服务的快速深度Q学习网络边云迁移策略 被引量:8
7
作者 彭军 王成龙 +3 位作者 蒋富 顾欣 牟玥玥 刘伟荣 《电子与信息学报》 EI CSCD 北大核心 2020年第1期58-64,共7页
智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云... 智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。 展开更多
关键词 智能网联交通系统 虚拟机迁移 强化学习 深度q学习网络
下载PDF
基于深度Q学习的强鲁棒性智能发电控制器设计 被引量:14
8
作者 殷林飞 余涛 《电力自动化设备》 EI CSCD 北大核心 2018年第5期12-19,共8页
在现代互联大电网背景下,研究了多区域强鲁棒性的智能发电控制策略。在Q学习的架构下,将深度神经网络的预测机制作为强化学习的动作选择机制,提出了一种具有强鲁棒性的深度Q学习算法,设计了基于该算法的智能发电控制器。针对智能电网下... 在现代互联大电网背景下,研究了多区域强鲁棒性的智能发电控制策略。在Q学习的架构下,将深度神经网络的预测机制作为强化学习的动作选择机制,提出了一种具有强鲁棒性的深度Q学习算法,设计了基于该算法的智能发电控制器。针对智能电网下的智能发电控制问题,在多智能体系统的框架下采用所提深度Q学习算法进行控制,并与传统的PID、Q学习和Q(λ)算法进行对比。在IEEE标准2区域和以南方电网4区域为背景的仿真模型(采用了23 328种不同模型参数)中进行数值仿真,仿真结果验证了所提深度Q学习算法的可行性和有效性,也验证了所设计控制器的强鲁棒性。 展开更多
关键词 深度q学习 智能发电控制 强鲁棒性 深度神经网络 多智能体系统
下载PDF
基于改进深度Q学习的网络选择算法 被引量:5
9
作者 马彬 陈海波 张超 《电子与信息学报》 EI CSCD 北大核心 2022年第1期346-353,共8页
在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练... 在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经网络,得到最佳选网策略。实验结果表明,该文算法显著改善了因休眠机制导致的高动态性网络切换性能下降问题,同时降低了传统深度Q学习算法在线上选网过程中的时间复杂度。 展开更多
关键词 超密集异构无线网络 改进深度q学习 网络选择
下载PDF
基于TD-error自适应校正的深度Q学习主动采样方法 被引量:12
10
作者 白辰甲 刘鹏 +1 位作者 赵巍 唐降龙 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期262-280,共19页
强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-erro... 强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量. 展开更多
关键词 样本优先级 TD-error校正 自适应 主动采样 深度q学习 强化学习
下载PDF
应用深度Q学习的机场道口协同智能调速方法
11
作者 江波 李彦冬 +2 位作者 刘威陇 唐宁 李诚龙 《航空计算技术》 2022年第1期26-30,共5页
为加速实现机场场面无人化管理,提高航空器在滑行道中的运行效率,应用人工智能中的深度Q学习网络算法研究了两个独立的智能体agent在机场场面滑行道交叉口中分别对申请使用同一滑行道交叉口的航空器进行智能调速。做了不同航空器密度下a... 为加速实现机场场面无人化管理,提高航空器在滑行道中的运行效率,应用人工智能中的深度Q学习网络算法研究了两个独立的智能体agent在机场场面滑行道交叉口中分别对申请使用同一滑行道交叉口的航空器进行智能调速。做了不同航空器密度下agent调速能力的对比研究,利用同一条件下深度Q学习网络调速、不调速和随机调速之间的对比试验来验证模型有效性和优化效果,通过可视化来验证模型的准确度。研究发现在任何航空器密度下,深度Q学习网络的调速都是有效的,平均60 s生成4架航空器的密度下,航空器安全通过交叉口成功率达到99.07%,平均优化率44.11%;90 s密度下达到99.31%,平均优化率44.25%;120 s密度下成功率达到99.58%,平均优化率43.92%。结果表明:利用深度Q学习网络在两个滑行道交叉口中实现协同智能调速是可行的。 展开更多
关键词 协同运行 交叉口控制 智能调速 深度q学习网络
下载PDF
改进深度Q学习的燃料电池混合动力汽车能量管理 被引量:6
12
作者 王浩聪 付主木 +2 位作者 孙昊琛 陶发展 宋书中 《河南科技大学学报(自然科学版)》 CAS 北大核心 2022年第4期34-40,M0004,共8页
针对传统深度Q学习对经验样本提取效率差、学习效率低的问题,提出一种改进深度Q学习的能量管理策略。首先,采用基于模糊控制的自适应低通滤波器进行功率分层,由超级电容承担需求功率的峰值部分。然后,设计基于深度Q学习的能量管理策略,... 针对传统深度Q学习对经验样本提取效率差、学习效率低的问题,提出一种改进深度Q学习的能量管理策略。首先,采用基于模糊控制的自适应低通滤波器进行功率分层,由超级电容承担需求功率的峰值部分。然后,设计基于深度Q学习的能量管理策略,以减少氢消耗量、提升燃料电池工作效率为目标,优化锂电池与燃料电池的能量分配。在策略训练过程采用基于求和树结构的优先经验回放机制。最后,在多种工况下仿真并进行平台试验。结果表明:所提出能量管理策略在燃料经济性上与基于传统深度Q学习策略相比平均提高5.1%,可有效延长锂电池使用寿命,实现对三能量源燃料电池混合动力汽车的能量管理。 展开更多
关键词 燃料电池混合动力汽车 功率分层 深度q学习 优先经验回放
下载PDF
基于深度Q学习和连续小波变换的旋转机械故障诊断方法 被引量:23
13
作者 陈仁祥 周君 +3 位作者 胡小林 韩兴波 朱孙科 张晓 《振动工程学报》 EI CSCD 北大核心 2021年第5期1092-1100,共9页
针对旋转机械故障诊断中深度神经网络特征学习能力强、决策能力弱的问题,利用卷积神经网络拟合强化学习中的Q函数,通过Q-learning算法学习策略实现故障诊断,提出了基于深度Q学习和连续小波变换的旋转机械故障诊断方法。对振动信号进行... 针对旋转机械故障诊断中深度神经网络特征学习能力强、决策能力弱的问题,利用卷积神经网络拟合强化学习中的Q函数,通过Q-learning算法学习策略实现故障诊断,提出了基于深度Q学习和连续小波变换的旋转机械故障诊断方法。对振动信号进行连续小波变换得到时间尺度矩阵,构建出环境状态空间,实现智能体与环境间的交互;用CNN拟合Q-learning中的Q函数得到深度Q网络,将环境返回的状态输入到深度Q网络中学习故障数据具体的状态特征表示,并据此表征学习策略,智能体采用ε-贪婪方式决策出动作,利用奖励发生器对动作进行评价;通过智能体与环境间不断交互学习以最大化Q函数值,得到最优策略实现故障诊断。这种方式融合了深度学习的感知能力和强化学习的决策能力,从而有效提高了诊断能力。通过不同工况及不同样本量下齿轮箱故障诊断实验证明了所提方法的有效性。 展开更多
关键词 故障诊断 旋转机械 连续小波变换 深度q学习
下载PDF
基于深度Q学习的移动机器人路径规划 被引量:23
14
作者 刘志荣 姜树海 +1 位作者 袁雯雯 史晨辉 《测控技术》 2019年第7期24-28,共5页
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据... 针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learming难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。 展开更多
关键词 q-LEARNING 深度q学习 移动机器人 路径规划
下载PDF
基于深度Q学习的工业机械臂路径规划方法 被引量:6
15
作者 王曌 胡立生 《化工自动化及仪表》 CAS 2018年第2期141-145,171,共6页
将机械臂避障路径规划问题置于强化学习的框架当中,采用深度Q学习的方法训练策略以规划路径,使得机械臂能够在空间中存在障碍物的情况下实现避障抓捕。生成的策略以神经网络的形式表示,通过经验回放和目标网络的方法解决以神经网络拟合... 将机械臂避障路径规划问题置于强化学习的框架当中,采用深度Q学习的方法训练策略以规划路径,使得机械臂能够在空间中存在障碍物的情况下实现避障抓捕。生成的策略以神经网络的形式表示,通过经验回放和目标网络的方法解决以神经网络拟合Q函数时网络难以收敛的问题。最后在Mu Jo Co仿真环境上验证了该方法的有效性。 展开更多
关键词 机械臂 避障 路径规划 强化学习 深度q学习
下载PDF
基于深度Q学习的室内无线网络资源分配算法 被引量:1
16
作者 吕亚平 贾向东 +1 位作者 路艺 敬乐天 《计算机工程与科学》 CSCD 北大核心 2021年第7期1250-1255,共6页
针对室内无线网络中的能量消耗过大问题,提出了一种基于深度Q学习的家庭基站发射功率分配算法。首先构造深度学习网络(DLN),优化室内无线网络的能量效率;然后将能量消耗指数作为奖罚值,利用批量梯度下降法不断地训练DLN的权值。最后仿... 针对室内无线网络中的能量消耗过大问题,提出了一种基于深度Q学习的家庭基站发射功率分配算法。首先构造深度学习网络(DLN),优化室内无线网络的能量效率;然后将能量消耗指数作为奖罚值,利用批量梯度下降法不断地训练DLN的权值。最后仿真结果表明,所提出的算法可以动态调整发射功率,在收敛速度和能量消耗优化方面明显优于Q学习算法和注水算法,可以有效地降低室内无线网络的能耗。 展开更多
关键词 室内无线网络 能量消耗 功率分配 深度q学习
下载PDF
基于生成对抗网络的深度Q学习空调冷负荷预测算法 被引量:1
17
作者 黄馨乐 于军琪 《建筑节能(中英文)》 CAS 2021年第9期105-108,共4页
针对传统预测算法在商场空调冷负荷预测中存在数据样本不足和预测精度低的问题,提出了一种基于生成对抗网络的深度Q学习的算法预测商场的空调冷负荷。利用生成对抗性网络生成与历史冷负荷数据相似的冷负荷数据,通过生成对抗网络解决真... 针对传统预测算法在商场空调冷负荷预测中存在数据样本不足和预测精度低的问题,提出了一种基于生成对抗网络的深度Q学习的算法预测商场的空调冷负荷。利用生成对抗性网络生成与历史冷负荷数据相似的冷负荷数据,通过生成对抗网络解决真实负荷数据样本不足的问题。然后,利用深度Q学习网络预测未来时刻空调冷负荷数据。为了验证算法的有效性,以西安某商业建筑的空调冷负荷数据为例进行实例分析,实验结果表明,与单一深度Q学习网络预测算法相比,所提算法提高了负荷预测的精度,减小了误差,具有较高的可靠性,满足实际工程需求。 展开更多
关键词 生成对抗网络 深度q学习 负荷预测
下载PDF
结合深度Q学习和注意模型的视频人脸识别 被引量:2
18
作者 郑秋文 刘惠义 《信息技术》 2019年第4期111-115,120,共6页
针对视频人脸识别中存在的动态人脸信息捕捉困难和局部人脸特征提取粗糙的问题,提出了一种基于深度Q学习和注意模型结合的视频人脸识别方法。首先,采用卷积神经网络(Convolutional Neural Network,CNN)训练视频数据可提取多维特征;其次... 针对视频人脸识别中存在的动态人脸信息捕捉困难和局部人脸特征提取粗糙的问题,提出了一种基于深度Q学习和注意模型结合的视频人脸识别方法。首先,采用卷积神经网络(Convolutional Neural Network,CNN)训练视频数据可提取多维特征;其次,将视频特征输入注意模型,根据视频数据时间连续性信息得到局部人脸特征、人脸位置和时间记忆单元;最后,采用Q学习迭代计算注意模型的输出,找到含人脸的最优帧序列,并以此计算视频匹配准确度。实验结果表明,该方法有效提高了复杂背景下视频人脸识别的准确性。 展开更多
关键词 视频人脸识别 深度q学习 注意力模型 马尔科夫决策过程
下载PDF
基于启发式深度Q学习的多机器人任务分配算法 被引量:14
19
作者 张子迎 陈云飞 +1 位作者 王宇华 冯光升 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2022年第6期857-864,共8页
针对多机器人任务分配方法在环境复杂性增加时出现的维度灾难问题,本文提出了一种基于启发式深度Q学习的多机器人多任务分配算法。采用神经网络代替传统强化学习中的Q值,避免了强化学习在高维度空间下的状态-动作空间的局限性问题;将轨... 针对多机器人任务分配方法在环境复杂性增加时出现的维度灾难问题,本文提出了一种基于启发式深度Q学习的多机器人多任务分配算法。采用神经网络代替传统强化学习中的Q值,避免了强化学习在高维度空间下的状态-动作空间的局限性问题;将轨迹池引入深度Q学习算法中启发动作的选择策略,提高了算法的收敛速度;在动作选择决策之中引入动态探索因子,保证算法对环境中的未知空间的充分探索,进而提高算法的学习效率。通过实验证明:基于启发式深度Q学习的任务分配算法成功缓解了复杂环境下多机器人多任务分配的维度灾难问题,通过实验对比,证明基于启发式深度Q学习的任务分配算法在收敛速度和任务分配结果方面存在明显的提升。 展开更多
关键词 任务分配 神经网络 强化学习 q 高纬度 启发式深度q学习 维度灾难 动态探索
下载PDF
基于深度Q学习的含用户侧储能微电网频率-电压数字化智能控制策略 被引量:9
20
作者 林日晖 陈友立 《中国电力》 CSCD 北大核心 2022年第12期43-50,共8页
频率与电压是衡量电能指标的重要标准。针对微电网受到负荷波动而引起的频率/电压调控问题,提出基于深度Q学习(deep Q-learning,DQN)的含用户侧储能微电网智能监控-控制策略。首先,通过考虑用户行为的随机性,增加了用户侧储能输出的随... 频率与电压是衡量电能指标的重要标准。针对微电网受到负荷波动而引起的频率/电压调控问题,提出基于深度Q学习(deep Q-learning,DQN)的含用户侧储能微电网智能监控-控制策略。首先,通过考虑用户行为的随机性,增加了用户侧储能输出的随机约束,并引入四象限充放电的模型,构建用户侧储能的集群充放电模型,从而搭建出微电网频率-电压的协同控制模型。其次,设计基于DQN的频率/电压控制器结构与数字化智能控制平台,以系统实时的频率偏差、电压偏差与用户侧储能输出功率的上、下限约束为状态空间,以系统各机组出力为动作空间,并基于频率及电压2个控制目标,完成包含2个本地奖励的全局奖励函数的设计。算例结果表明:与传统PID控制器相比,所提DQN控制器能同时满足频率与电压的控制需求,更有效地应对负荷波动所引起的电能质量问题。 展开更多
关键词 孤岛微电网 用户侧储能 频率/电压协调控制 深度q学习算法 数字化平台
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部