针对信道状态信息未知SWIPT-D2D(Simultaneous Wireless Information and Power Transfer Device to Device)无线通信网络环境下设备间信号干扰以及设备能量损耗问题,提出通过使用近端策略优化(Proximal Policy Optimization,PPO)算法,...针对信道状态信息未知SWIPT-D2D(Simultaneous Wireless Information and Power Transfer Device to Device)无线通信网络环境下设备间信号干扰以及设备能量损耗问题,提出通过使用近端策略优化(Proximal Policy Optimization,PPO)算法,在满足蜂窝用户通信质量要求的前提下同时对D2D用户的资源块、发射功率以及功率分割比三部分进行联合优化。仿真结果表明,所提算法相比于其他算法能够为D2D用户制定更好的资源分配方案,在保证蜂窝用户保持较高通信速率的同时使D2D用户获得更高的能效。同时,当环境中用户数量增加时,所提算法相比于Dueling Double DQN(Deep Q-Network)以及DQN算法,D2D能效分别平均提高了15.95%和23.59%,当通信网络规模变大时所提算法具有更强的鲁棒性。展开更多
设备到设备(Device to Device,D2D)通信可以提升频谱利用率和系统吞吐量,但由于D2D通信存在干扰问题,资源分配难度较大。近年来,深度强化学习(Deep Reinforcement Learning,DRL)被广泛应用于蜂窝通信的资源分配。因此,提出了一种基于优...设备到设备(Device to Device,D2D)通信可以提升频谱利用率和系统吞吐量,但由于D2D通信存在干扰问题,资源分配难度较大。近年来,深度强化学习(Deep Reinforcement Learning,DRL)被广泛应用于蜂窝通信的资源分配。因此,提出了一种基于优势演员-评论员(Advantage Actor-Critic,A2C)的资源分配算法,该算法可以根据环境状态选择最佳的D2D资源分配策略。通过仿真实验验证了该算法在网络性能上的优越性,并与其他算法进行了对比,结果表明,所提算法在提高系统吞吐率方面效果最好。因此,该算法为蜂窝网络中D2D通信资源分配问题提供了一种新的解决方案,具有广泛的应用前景。展开更多
文摘针对信道状态信息未知SWIPT-D2D(Simultaneous Wireless Information and Power Transfer Device to Device)无线通信网络环境下设备间信号干扰以及设备能量损耗问题,提出通过使用近端策略优化(Proximal Policy Optimization,PPO)算法,在满足蜂窝用户通信质量要求的前提下同时对D2D用户的资源块、发射功率以及功率分割比三部分进行联合优化。仿真结果表明,所提算法相比于其他算法能够为D2D用户制定更好的资源分配方案,在保证蜂窝用户保持较高通信速率的同时使D2D用户获得更高的能效。同时,当环境中用户数量增加时,所提算法相比于Dueling Double DQN(Deep Q-Network)以及DQN算法,D2D能效分别平均提高了15.95%和23.59%,当通信网络规模变大时所提算法具有更强的鲁棒性。