在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这...在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.展开更多
为了使用更宽的信道,Wi-Fi引入了信道绑定技术,授权辅助(licensed-assistedaccess,LAA)引入了多载波先听后说(listenbeforetalk,LBT)技术。一方面,多信道的使用虽然能够有效提高数据传输效率,但同时LAA和Wi-Fi在竞争信道时的节点碰撞也...为了使用更宽的信道,Wi-Fi引入了信道绑定技术,授权辅助(licensed-assistedaccess,LAA)引入了多载波先听后说(listenbeforetalk,LBT)技术。一方面,多信道的使用虽然能够有效提高数据传输效率,但同时LAA和Wi-Fi在竞争信道时的节点碰撞也会相应增加,影响系统间的性能。另一方面,流量负载往往呈现出动态变化。因此需要选择最合适的信道来减少网络节点之间的冲突以及避免资源的浪费。本文提出了一种基于多智能体深度确定性策略(multi-agent deep deterministic policygradient,MADDPG)的节点竞争信道算法,仿真表明该算法具有较好的收敛性,实现了LAA与Wi-Fi的相对公平,同时与其他算法相比具有更低的平均时延和更高的系统吞吐量。展开更多
文摘在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.
文摘为了使用更宽的信道,Wi-Fi引入了信道绑定技术,授权辅助(licensed-assistedaccess,LAA)引入了多载波先听后说(listenbeforetalk,LBT)技术。一方面,多信道的使用虽然能够有效提高数据传输效率,但同时LAA和Wi-Fi在竞争信道时的节点碰撞也会相应增加,影响系统间的性能。另一方面,流量负载往往呈现出动态变化。因此需要选择最合适的信道来减少网络节点之间的冲突以及避免资源的浪费。本文提出了一种基于多智能体深度确定性策略(multi-agent deep deterministic policygradient,MADDPG)的节点竞争信道算法,仿真表明该算法具有较好的收敛性,实现了LAA与Wi-Fi的相对公平,同时与其他算法相比具有更低的平均时延和更高的系统吞吐量。