期刊文献+
共找到68篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进联邦竞争深度Q网络的多微网能量管理策略
1
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
下载PDF
一种改进的双深度Q网络服务功能链部署算法 被引量:1
2
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 深度q网络
下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
3
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度q网络(DDqN)算法
下载PDF
基于竞争双深度Q网络的频谱感知和接入
4
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争深度q网络
下载PDF
基于深度Q网络优化运行方式的风电场次同步振荡抑制策略
5
作者 陆文安 吴许晗 +3 位作者 余一平 李兆伟 郄朝辉 李甘 《现代电力》 北大核心 2024年第3期448-457,共10页
随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振... 随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振荡抑制策略。首先,通过时域仿真分析桨距角和串补电容对风电场次同步振荡阻尼的影响,在此基础上建立桨距角调整风机出力、并联电容调整线路串补的次同步振荡联合优化数学模型。其次,将深度Q网络算法应用于系统振荡阻尼优化求解问题,获得风电机组次同步振荡抑制优化策略,并与基于遗传算法求解的次同步振荡抑制结果对比。结果表明,该方法有效降低了振荡幅值,提升了系统的阻尼,验证了该方法的合理性和优越性。 展开更多
关键词 馈风机 次同步振荡 深度q网络 阻尼优化 振荡抑制
下载PDF
基于深度Q网络的海上环境智能路径规划
6
作者 李鹏程 周远国 杨国卿 《电子测量技术》 北大核心 2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研... 深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。 展开更多
关键词 改进深度q网络 海上模拟仿真环境 航海优先级 奖赏函数
下载PDF
融合对比预测编码的深度双Q网络 被引量:1
7
作者 刘剑锋 普杰信 孙力帆 《计算机工程与应用》 CSCD 北大核心 2023年第6期162-170,共9页
在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学... 在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。 展开更多
关键词 部分可观测马尔可夫决策过程 表示学习 强化学习 对比预测编码 深度q网络
下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:2
8
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争深度q网络
下载PDF
基于权重值的竞争深度双Q网络算法 被引量:5
9
作者 汪晨曦 赵学艳 郭新 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2021年第5期564-570,共7页
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算... 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升. 展开更多
关键词 深度强化学习 深度q网络 竞争网络结构 权重值
下载PDF
基于改进竞争深度Q网络算法的微电网能量管理与优化策略 被引量:14
10
作者 黎海涛 申保晨 +3 位作者 杨艳红 裴玮 吕鑫 韩雨庭 《电力系统自动化》 EI CSCD 北大核心 2022年第7期42-49,共8页
可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和... 可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和优化设计的神经网络结构,对分布式可再生能源的功率输出、能源交易市场的电价和电力负荷的状态等环境信息进行学习,并运用学习到的策略进行微电网能量管理与优化。仿真结果表明,基于改进竞争深度Q网络算法的微电网能量管理与优化策略的性能优于基于场景的随机规划算法、深度Q网络算法和竞争深度Q网络算法。 展开更多
关键词 微电网 能量管理 深度强化学习 竞争深度q网络算法 神经网络结构 多参数动作探索机制
下载PDF
融合动作剔除的深度竞争双Q网络智能干扰决策算法 被引量:2
11
作者 饶宁 许华 宋佰霖 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期92-98,共7页
为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动... 为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动作剔除机制加快学习最佳干扰策略。当面对未知的通信抗干扰策略时,该方法能学习到较优的干扰策略。仿真结果表明,当敌方通信策略发生变化时,该方法能自适应调整干扰策略,稳健性较强,和已有方法相比可达到更高的干扰成功率,获得更大的干扰效能。 展开更多
关键词 干扰决策 深度q网络 竞争网络 干扰动作剔除
下载PDF
移动边缘网络中基于双深度Q学习的高能效资源分配方法 被引量:9
12
作者 喻鹏 张俊也 +4 位作者 李文璟 周凡钦 丰雷 付澍 邱雪松 《通信学报》 EI CSCD 北大核心 2020年第12期148-161,共14页
为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设... 为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设置任务时延和通信、计算、存储资源限制等约束条件,构建了对应的资源分配模型。依据模型特征,基于DDQL框架,提出了适用于通信和计算资源智能决策、存储资源按需分配的资源分配模型和算法。仿真结果表明,所提出的基于DDQL资源分配方法可以有效地解决多任务资源分配问题,具有较好的收敛性和较低的时间复杂度,在保障业务服务质量的同时,相对于基于随机算法、贪心算法、粒子群优化算法、深度Q学习等方法,降低了至少5%的任务平均能耗。 展开更多
关键词 移动边缘网络 融合资源分配 高能效 深度q学习
下载PDF
基于改进深度Q学习的网络选择算法 被引量:4
13
作者 马彬 陈海波 张超 《电子与信息学报》 EI CSCD 北大核心 2022年第1期346-353,共8页
在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练... 在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经网络,得到最佳选网策略。实验结果表明,该文算法显著改善了因休眠机制导致的高动态性网络切换性能下降问题,同时降低了传统深度Q学习算法在线上选网过程中的时间复杂度。 展开更多
关键词 超密集异构无线网络 改进深度q学习 网络选择
下载PDF
基于排序优先经验回放的竞争深度Q网络学习 被引量:5
14
作者 周瑶瑶 李烨 《计算机应用研究》 CSCD 北大核心 2020年第2期486-488,共3页
为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真... 为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用提供了有价值的参考。 展开更多
关键词 强化学习 深度q网络 竞争网络 排序优先经验回放
下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究
15
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
下载PDF
基于竞争双深度Q学习的智能电表隐私保护与成本管理 被引量:4
16
作者 王峥 郭彦 +3 位作者 聂峥 庞振江 臧志成 巩永稳 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2021年第4期554-561,共8页
智能电表能够实时采集、计算、存储和传输电力数据,对智能电网的运转起着关键性的作用。配备储能设备的智能家居是智能电表的一种重要的应用场景,它的发展面临隐私数据泄露隐患和高用电成本2个问题,需要研究两者的权衡优化策略。系统模... 智能电表能够实时采集、计算、存储和传输电力数据,对智能电网的运转起着关键性的作用。配备储能设备的智能家居是智能电表的一种重要的应用场景,它的发展面临隐私数据泄露隐患和高用电成本2个问题,需要研究两者的权衡优化策略。系统模型考虑了2种不同类型的储电设备,并建立了电表数据泄露和用电成本量化的权衡模型。考虑到传统深度强化学习存在过度估计和收敛慢的缺陷,提出一种基于竞争双深度Q学习的储能电器功率分配方法,实现了性能优化的目标。仿真结果表明,对比传统的深度Q学习和双深度Q学习方法,所提方法在隐私保护和成本控制2方面能获得更好的性能。 展开更多
关键词 智能家居 智能电表 功率分配 隐私保护 成本管理 竞争深度q学习
下载PDF
重复利用状态值的竞争深度Q网络算法 被引量:5
17
作者 张俊杰 张聪 赵涵捷 《计算机工程与应用》 CSCD 北大核心 2021年第4期134-140,共7页
在使用反距离加权法(Inverse Distance Weighted method,IDW)对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超... 在使用反距离加权法(Inverse Distance Weighted method,IDW)对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超参数。该算法在训练时,将每轮训练样本中的奖励值进行标准化后,与Dueling-DQN中Q网络的状态值结合形成新的总奖励值,然后将总奖励值输入到Q网络中进行学习,从而增强了状态与动作的内在联系,使算法更加稳定。最后使用该算法在IDW上进行超参数学习,并与几种常见强化学习算法进行对比实验。实验表明,提出的RSV-DuDQN算法可以使模型更快收敛,同时提升了模型的稳定性,还可以更准确地得到IDW的参数估计。 展开更多
关键词 状态值重利用 竞争深度q学习网络 反距离加权法 超参数搜索
下载PDF
优先状态估计的双深度Q网络
18
作者 张鑫 张席 《计算机工程与应用》 CSCD 北大核心 2021年第8期78-83,共6页
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问... 深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向。结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。 展开更多
关键词 强化学习 状态估计 深度q网络 深度q网络
下载PDF
基于深度双Q网络的多用户蜂窝网络功率分配算法研究 被引量:1
19
作者 王伟 殷爽爽 《计算机应用研究》 CSCD 北大核心 2021年第5期1498-1502,共5页
针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行... 针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。 展开更多
关键词 蜂窝网络 干扰多址信道 功率分配 深度强化学习 深度q网络
下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
20
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 深度q网络 能力阈值贪婪算法
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部