期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于SumTree采样结合Double DQN的非合作式多用户动态功率控制方法 被引量:1
1
作者 刘骏 王永华 +1 位作者 王磊 尹泽中 《电讯技术》 北大核心 2023年第10期1603-1611,共9页
为了保证认知无线网络中次用户本身的通信服务质量,同时降低次用户因发射功率不合理而造成的功率损耗,提出了一种基于SumTree采样结合深度双Q网络(Double Deep Q Network,Double DQN)的非合作式多用户动态功率控制方法。通过这种方法,... 为了保证认知无线网络中次用户本身的通信服务质量,同时降低次用户因发射功率不合理而造成的功率损耗,提出了一种基于SumTree采样结合深度双Q网络(Double Deep Q Network,Double DQN)的非合作式多用户动态功率控制方法。通过这种方法,次用户可以不断与辅助基站进行交互,在动态变化的环境下经过不断的学习,选择以较低的发射功率完成功率控制任务。其次,该方法可以解耦目标Q值动作的选择和目标Q值的计算,能够有效减少过度估计和算法的损失。并且,在抽取经验样本时考虑到不同样本之间重要性的差异,采用了结合优先级和随机抽样的SumTree采样方法,既能保证优先级转移也能保证最低优先级的非零概率采样。仿真结果表明,该方法收敛后的算法平均损失值能稳定在0.04以内,算法的收敛速度也至少快了10个训练回合,还能提高次用户总的吞吐量上限和次用户功率控制的成功率,并且将次用户的平均功耗降低了0.5 mW以上。 展开更多
关键词 认知无线网络(CRN) 功率控制 sumtree采样 深度强化学习
下载PDF
基于深度强化学习的SDN服务质量智能优化算法
2
作者 廖岑卉珊 陈俊彦 +2 位作者 梁观平 谢小兰 卢小烨 《物联网学报》 2023年第1期73-82,共10页
深度强化学习具有较强的决策能力和泛化能力,常被应用于软件定义网络(SDN,software defined network)的服务质量(QoS,quality of service)优化中。但传统深度强化学习算法存在收敛速度慢和不稳定等问题。提出一种基于深度强化学习的服... 深度强化学习具有较强的决策能力和泛化能力,常被应用于软件定义网络(SDN,software defined network)的服务质量(QoS,quality of service)优化中。但传统深度强化学习算法存在收敛速度慢和不稳定等问题。提出一种基于深度强化学习的服务质量优化算法(AQSDRL,algorithm of quality of service optimization based on deep reinforcement learning),以解决SDN在数据中心网络(DCN,data center network)应用中的QoS问题。AQSDRL引入基于softmax估计的深层双确定性策略梯度(SD3,softmax deep double deterministic policy gradient)算法实现模型训练,并采用基于Sum Tree的优先级经验回放机制优化SD3算法,以更大的概率抽取具有更显著时序差分误差(TD-error,temporal-difference error)的样本来训练神经网络,有效提升算法的收敛速度和稳定性。实验结果表明,所提AQSDRL与现有的深度强化学习算法相比能够有效降低网络传输时延,且提高网络的负载均衡性能。 展开更多
关键词 深度强化学习 软件定义网络 服务质量 数据中心网络 sumtree
下载PDF
采用DDPG的双足机器人自学习步态规划方法 被引量:6
3
作者 周友行 赵晗妘 +2 位作者 刘汉江 李昱泽 肖雨琴 《计算机工程与应用》 CSCD 北大核心 2021年第6期254-259,共6页
为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案。把双足机器人多关节自由度控制问题转化为非线性函数的... 为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案。把双足机器人多关节自由度控制问题转化为非线性函数的多目标优化求解问题,采用DDPG算法来求解。为解决全局逼近网络求解过程收敛慢的问题,采用径向基(RBF)神经网络进行非线性函数值的计算,并采用梯度下降算法更新神经网络权值,采用SumTree来筛选优质样本。通过ROS、Gazebo、Tensorflow的联合仿真平台对双足机器人进行了模拟学习训练。经数据仿真验证,改进后的DDPG算法平均达到最大累积奖励的时间提前了45.7%,成功率也提升了8.9%,且经训练后的关节姿态角度具有更好的平滑度。 展开更多
关键词 双足机器人 步态规划 深度确定性策略梯度算法(DDPG) 径向基函数(RBF)神经网络 sumtree Gazebo
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部