为了保证认知无线网络中次用户本身的通信服务质量,同时降低次用户因发射功率不合理而造成的功率损耗,提出了一种基于SumTree采样结合深度双Q网络(Double Deep Q Network,Double DQN)的非合作式多用户动态功率控制方法。通过这种方法,...为了保证认知无线网络中次用户本身的通信服务质量,同时降低次用户因发射功率不合理而造成的功率损耗,提出了一种基于SumTree采样结合深度双Q网络(Double Deep Q Network,Double DQN)的非合作式多用户动态功率控制方法。通过这种方法,次用户可以不断与辅助基站进行交互,在动态变化的环境下经过不断的学习,选择以较低的发射功率完成功率控制任务。其次,该方法可以解耦目标Q值动作的选择和目标Q值的计算,能够有效减少过度估计和算法的损失。并且,在抽取经验样本时考虑到不同样本之间重要性的差异,采用了结合优先级和随机抽样的SumTree采样方法,既能保证优先级转移也能保证最低优先级的非零概率采样。仿真结果表明,该方法收敛后的算法平均损失值能稳定在0.04以内,算法的收敛速度也至少快了10个训练回合,还能提高次用户总的吞吐量上限和次用户功率控制的成功率,并且将次用户的平均功耗降低了0.5 mW以上。展开更多
深度强化学习具有较强的决策能力和泛化能力,常被应用于软件定义网络(SDN,software defined network)的服务质量(QoS,quality of service)优化中。但传统深度强化学习算法存在收敛速度慢和不稳定等问题。提出一种基于深度强化学习的服...深度强化学习具有较强的决策能力和泛化能力,常被应用于软件定义网络(SDN,software defined network)的服务质量(QoS,quality of service)优化中。但传统深度强化学习算法存在收敛速度慢和不稳定等问题。提出一种基于深度强化学习的服务质量优化算法(AQSDRL,algorithm of quality of service optimization based on deep reinforcement learning),以解决SDN在数据中心网络(DCN,data center network)应用中的QoS问题。AQSDRL引入基于softmax估计的深层双确定性策略梯度(SD3,softmax deep double deterministic policy gradient)算法实现模型训练,并采用基于Sum Tree的优先级经验回放机制优化SD3算法,以更大的概率抽取具有更显著时序差分误差(TD-error,temporal-difference error)的样本来训练神经网络,有效提升算法的收敛速度和稳定性。实验结果表明,所提AQSDRL与现有的深度强化学习算法相比能够有效降低网络传输时延,且提高网络的负载均衡性能。展开更多
文摘深度强化学习具有较强的决策能力和泛化能力,常被应用于软件定义网络(SDN,software defined network)的服务质量(QoS,quality of service)优化中。但传统深度强化学习算法存在收敛速度慢和不稳定等问题。提出一种基于深度强化学习的服务质量优化算法(AQSDRL,algorithm of quality of service optimization based on deep reinforcement learning),以解决SDN在数据中心网络(DCN,data center network)应用中的QoS问题。AQSDRL引入基于softmax估计的深层双确定性策略梯度(SD3,softmax deep double deterministic policy gradient)算法实现模型训练,并采用基于Sum Tree的优先级经验回放机制优化SD3算法,以更大的概率抽取具有更显著时序差分误差(TD-error,temporal-difference error)的样本来训练神经网络,有效提升算法的收敛速度和稳定性。实验结果表明,所提AQSDRL与现有的深度强化学习算法相比能够有效降低网络传输时延,且提高网络的负载均衡性能。