期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
超密集网络中基于改进DQN的接入选择算法
1
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度Q网络(dqn) 优先经验回放 负载均衡
下载PDF
面向煤矿救援机器人路径规划的重回放机制DQN算法 被引量:1
2
作者 吴东领 魏群 刘心军 《煤炭技术》 CAS 北大核心 2023年第5期237-240,共4页
煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机... 煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机制,从而避免陷入维度灾难和改善算法的收敛性;其次,采用一种动态的贪婪搜索策略,选择出当前最佳的执行动作,打破样本之间的关联性,不断探索环境信息选择最优路径。最后,利用拓展邻域的位移模式,缩短搜索距离从而提升规划路径的平滑性能。仿真结果表明:提出的算法性能对比DQN算法在煤矿救援机器人规划路径指标性能上获得较大提升,从而保障了煤矿救援机器人实际作业时的高效运行。 展开更多
关键词 煤矿救援机器人 路径规划 dqn网络训练 重回放机制 收敛性
下载PDF
移动场景中基于DQN的毫米波MISO系统下行链路波束成形
3
作者 李中捷 吴园君 +1 位作者 金闪 钟小辉 《中南民族大学学报(自然科学版)》 CAS 北大核心 2021年第3期278-285,共8页
针对移动场景中毫米波MISO系统的可靠性通信问题,提出一种基于深度Q网络(deep Q network,DQN)的下行链路波束成形优化方案.考虑用户快速移动导致的多普勒频移来构建移动场景中的毫米波信道模型,结合功率控制和干扰约束,将MISO系统下行... 针对移动场景中毫米波MISO系统的可靠性通信问题,提出一种基于深度Q网络(deep Q network,DQN)的下行链路波束成形优化方案.考虑用户快速移动导致的多普勒频移来构建移动场景中的毫米波信道模型,结合功率控制和干扰约束,将MISO系统下行链路的波束成形联合设计方案(joint beamforming-power control and interference coordination,JB-PCIC)建模为非凸优化问题.根据最大化信干噪比(signal to interference plus noise ratio,SINR)及用户的位置坐标,构建智能体-无线环境交互,利用DQN的贪婪属性估计动作的未来奖励,求解该优化问题.仿真结果表明:与穷举搜索的蛮力算法相比,所提出的基于DQN算法的JB-PCIC方案在显著降低复杂度的情况下,可以达到蛮力算法的速率和容量. 展开更多
关键词 波束成形 JB-PCIC方案 dqn网络 信干噪比 速率和容量
下载PDF
结合先验知识的深度Q神经网络算法研究 被引量:3
4
作者 褚伟 茹琦 任明仑 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第7期901-905,958,共6页
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射... 深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。 展开更多
关键词 深度学习 强化学习 深度Q神经网络(dqn) 先验知识
下载PDF
异构网络中用户关联和功率控制的协同优化 被引量:2
5
作者 樊雯 陈腾 菅迎宾 《电讯技术》 北大核心 2021年第7期893-900,共8页
针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最... 针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最优化问题,构建了正交频分多址的双层异构网络系统模型,以实现智能决策;其次,根据应用场景和多智能体DQN框架的动作空间,对状态空间和奖励函数进行重构;最后,通过选取具有宏基站(Base Station,BS)和小型BS的两层异构网络,对多智能体DQN算法的性能进行仿真实验。仿真结果表明,相较于传统学习算法,多智能体DQN算法具有更好的收敛性,且能够有效提升用户设备(User Equipment,UE)的服务质量与能效,并可获得最大的长期总体网络实用性。 展开更多
关键词 异构网络 用户关联 功率控制 强化学习 深度Q学习网络(dqn)
下载PDF
基于深度Q网络的5G网络优化方法
6
作者 于星辉 《通信电源技术》 2023年第19期168-170,共3页
通过探讨基于深度Q网络(Deep Q-Network,DQN)的5G网络优化方法,以提高5G网络的性能和自愈能力。主要研究5G网络的基本架构,包括基站、承载网、电信机房、骨干网络、接入网以及核心网,了解其工作原理,并介绍DQN的结构和数学原理。通过实... 通过探讨基于深度Q网络(Deep Q-Network,DQN)的5G网络优化方法,以提高5G网络的性能和自愈能力。主要研究5G网络的基本架构,包括基站、承载网、电信机房、骨干网络、接入网以及核心网,了解其工作原理,并介绍DQN的结构和数学原理。通过实验测试该方法的可行性。实验结果表明,DQN模型在提升5G网络的自愈能力方面表现出巨大潜力,尤其是在实现最优平均累积奖励和最低均方误差的情况下。 展开更多
关键词 深度Q网络(dqn) 5G网络 自愈能力 优化方法
下载PDF
深度强化学习下连续和离散相位RIS毫米波通信
7
作者 胡浪涛 杨瑞 +3 位作者 刘全金 吴建岚 嵇文 吴磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期50-59,共10页
在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与... 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与相位码本,提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵;在连续动作空间中,采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比,强化学习算法的和速率性能有明显提升,连续的TD3算法的和速率超过凸优化算法23.89%,在码本比特数目为4时,离散的DQN算法性能也优于传统的凸优化算法。 展开更多
关键词 深度Q网络(dqn) 深度强化学习 双延迟策略梯度 毫米波 智能反射面
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
8
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(dqn)算法 异步优势演员-评论家(A3C)算法 深度学习
下载PDF
基于集成深度强化学习的自动驾驶车辆行为决策模型 被引量:2
9
作者 张新锋 吴琳 《汽车安全与节能学报》 CAS CSCD 北大核心 2023年第4期472-479,共8页
提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道... 提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道、4车道、5车道数量场景下,对向左换道、车道保持、向右换道、同车道加速和减速等5种车辆驾驶行为,进行测试和泛化性验证。结果表明:与其它3种网络模型相比,该模型的决策成功率分别提高了6%、3%和6%;平均车速也有提升;100回合的测试,耗时小于1 ms,满足决策实时性要求。因而,该决策模型提高了行车安全和决策效率。 展开更多
关键词 自动驾驶 深度强化学习 集成学习 深度Q网络(dqn) 标准投票法
下载PDF
基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
10
作者 吴兰 吴元明 +1 位作者 孔凡士 李斌全 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1353-1363,共11页
深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩... 深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩展卡尔曼滤波(EKF)相结合(DQN-EKF)的交通信号灯配时方法。以估计网络的不确定性参数值作为状态变量,包含不确定性参数的目标网络值作为观测变量,结合过程噪声、包含不确定性参数的估计网络值和系统观测噪声构造EKF系统方程,通过EKF的迭代更新求解,得到DQN模型中的最优真实参数估计值,解决DQN模型中的参数不确定性问题。实验结果表明:DQN-EKF配时方法适用于不同的交通环境,并能够有效提高车辆的通行效率。 展开更多
关键词 深度Q学习网络(dqn) 感知能力 决策能力 交通信号灯配时系统 参数不确定性 扩展卡尔曼滤波(EKF)
下载PDF
基于态势认知的无人机集群围捕方法 被引量:10
11
作者 吴子沉 胡斌 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第2期424-430,共7页
无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的... 无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的围捕方法。首先,对集群围捕行为分解,将围捕离散化;然后,基于深度Q神经网络(DQN),设计一种围捕策略的生成方法;最后,建立状态-策略知识库,并通过大量有效数据的训练,针对不同环境获得不同的策略,对知识库进行发育。仿真结果表明:提出的基于态势认知的发育模型,能够有效适应不同环境,完成不同环境下的围捕。 展开更多
关键词 无人机 集群围捕 态势认知 深度Q神经网络(dqn) 自主发育
下载PDF
基于深度强化学习的暂态稳定紧急控制决策方法 被引量:5
12
作者 李宏浩 张沛 刘曌 《电力系统自动化》 EI CSCD 北大核心 2023年第5期144-152,共9页
随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,... 随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,提出一种深度Q网络(DQN)强化学习与暂态能量函数相结合的紧急控制决策方法,多步序贯决策过程中可应对紧急控制的时滞不确定性影响。奖励函数以考虑控制目标和约束条件的短期奖励函数和考虑稳定性的长期奖励函数构成,并在奖励函数中引入暂态能量函数的势能指数来提高学习效率。以最大化累计奖励为目标,通过DQN算法在离散化动作空间中学习得到最优紧急控制策略,解决暂态稳定紧急控制问题。所提方法通过IEEE 39节点系统验证了模型在紧急控制决策中的有效性。 展开更多
关键词 深度强化学习 暂态稳定 紧急控制决策 暂态能量函数 深度Q网络(dqn)算法 时滞
下载PDF
基于深度强化学习的多阶段信息物理协同拓扑攻击方法 被引量:2
13
作者 伊娜 徐建军 +1 位作者 陈月 孙迪康 《电力工程技术》 北大核心 2023年第4期149-158,共10页
随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障... 随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障。首先,基于攻击者的视角,提出一种多阶段信息物理协同拓扑攻击模型,单阶段的物理攻击使线路中断,双阶段的网络攻击分别用来掩盖物理攻击的断开线路和制造一条新的虚假断开线路。其次,结合深度强化学习(deep reinforcement learning,DRL)理论,提出一种基于深度Q网络(deep Q-network,DQN)的最小攻击资源确定方法。然后,给出攻击者考虑上层最大化物理攻击效果和下层最小化攻击代价的具体模型及求解方法。最后,以IEEE 30节点系统为例,验证了所提多阶段攻击模型的有效性。仿真结果表明,多阶段信息物理协同拓扑攻击较单一攻击更加隐蔽且有效,对电网的破坏程度更大,为防御此类攻击提供了参考。 展开更多
关键词 信息物理系统(CPS) 信息物理协同攻击(CCPA) 拓扑攻击 负荷重分配攻击 深度强化学习(DRL) 深度Q网络(dqn)算法
下载PDF
仓储环境下基于忆阻强化学习的AGV路径规划 被引量:3
14
作者 杨海兰 祁永强 荣丹 《计算机工程与应用》 CSCD 北大核心 2023年第17期318-327,共10页
针对动态仓储环境下的AGV路径规划,采用栅格法对仓储环境进行建模,通过改进了概率转移函数及信息素的蚁群算法完成静态环境下的路径规划;利用忆阻器和生物神经突触类似的特性,将其作为神经网络突触结构,改进传统的DQN算法,并利用基于忆... 针对动态仓储环境下的AGV路径规划,采用栅格法对仓储环境进行建模,通过改进了概率转移函数及信息素的蚁群算法完成静态环境下的路径规划;利用忆阻器和生物神经突触类似的特性,将其作为神经网络突触结构,改进传统的DQN算法,并利用基于忆阻器阵列的DQN算法进行动态局部避障;依据AGV感知范围内是否存在动态障碍物实时地切换路径规划机制,以实现高效的AGV搬运工作。在MATLAB仿真平台进行实验,结果表明该路径规划方法可有效、实时地为AGV规划出一条安全无碰撞的最优路径。 展开更多
关键词 自动引导车(AGV) 动态环境 深度Q网络(dqn) 忆阻器 路径规划
下载PDF
基于分层强化学习的雅达利游戏决策算法
15
作者 周婉 姚溪子 +1 位作者 肖雨薇 刘艳芳 《信息与电脑》 2022年第20期97-99,共3页
随着机器学习的发展,深度强化学习凭借着能够对大规模输入进行自主探索试错从而学习到最优策略的优势成为研究热点。然而,传统的强化学习在针对复杂的决策任务时面临着维度灾难,并且无法解决稀疏奖励问题。文章提出一种融合Manager-Wor... 随着机器学习的发展,深度强化学习凭借着能够对大规模输入进行自主探索试错从而学习到最优策略的优势成为研究热点。然而,传统的强化学习在针对复杂的决策任务时面临着维度灾难,并且无法解决稀疏奖励问题。文章提出一种融合Manager-Worker层次结构与强化学习经典算法深度Q网络(DeepQNetwork,DQN)的分层强化学习算法,在雅达利游戏环境中训练,使智能体能够在“环境-动作-反馈”中学习最优策略。实验表明,该方法在雅达利游戏的复杂决策中更有效,并且超过人类玩家的平均水平。 展开更多
关键词 分层强化学习(HRL) 深度Q网络(dqn) 雅达利游戏
下载PDF
考虑能量时空转移的城市规模化共享电动汽车充放电优化调度 被引量:3
16
作者 万玲玲 陈中 +1 位作者 王毅 张梓麒 《电力建设》 CSCD 北大核心 2023年第6期135-143,共9页
共享电动汽车(electric vehicles,EV)的发展不仅为用户提供了便捷的出行方式,也为城市电网提供了高效的灵活调节资源,规模化共享EV出行和充放电行为复杂、随机性强,对其建立充放电控制模型需要考虑多元利益主体的在线滚动协同,计算量大... 共享电动汽车(electric vehicles,EV)的发展不仅为用户提供了便捷的出行方式,也为城市电网提供了高效的灵活调节资源,规模化共享EV出行和充放电行为复杂、随机性强,对其建立充放电控制模型需要考虑多元利益主体的在线滚动协同,计算量大且实时性要求高。首先,采用基于荷电状态区间的聚合建模方法,根据荷电状态确定共享电动汽车的能量时空转移状态,对规模化EV的充放电优化调度进行降维处理。然后,考虑运营商利益、有限理性用户累积前景效用以及电网需求响应等多元主体收益,构建了基于深度强化学习的充放电优化模型,并采用深度Q网络方法进行求解,可实时在线获得面向城市不同区域共享EV的充放电聚合优化策略,有效应对随机性带来的影响。最后,结合某市9区域共5000辆共享EV的实际运营数据,通过算例分析验证了城市内部共享EV具有能量时空转移特性,所提建模方法与求解策略在保证多元主体利益的目标下能够有效解决大规模共享EV充放电优化调度问题。 展开更多
关键词 共享电动汽车 多元主体利益 深度Q网络(dqn) 能量时空转移特性
原文传递
基于深度Q学习的电热综合能源系统能量管理 被引量:13
17
作者 王新迎 赵琦 +1 位作者 赵黎媛 杨挺 《电力建设》 CSCD 北大核心 2021年第3期10-18,共9页
能量管理是电热综合能源系统运行优化的重要组成部分。然而,系统中可再生能源出力的波动性以及用户负荷的随机性使得能量优化管理问题充满挑战。针对此问题,文章提出了一种计及可再生能源和负荷需求不确定性的综合能源系统能量管理方法... 能量管理是电热综合能源系统运行优化的重要组成部分。然而,系统中可再生能源出力的波动性以及用户负荷的随机性使得能量优化管理问题充满挑战。针对此问题,文章提出了一种计及可再生能源和负荷需求不确定性的综合能源系统能量管理方法。将电热综合能源系统的能量管理问题表述为转移概率未知的马尔科夫决策过程,定义了系统的状态空间、动作空间和奖励函数。为求解该马尔科夫决策过程,提出了一种基于深度Q学习网络的电热综合能源系统能量优化管理方法。算例仿真表明,所提方法能够自适应地对源和荷的随机波动做出响应,实现系统的能量优化管理。 展开更多
关键词 能量管理 综合能源系统 强化学习 深度Q学习网络(dqn)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部