摘要
深度强化学习在许多复杂的决策问题中都有很好的表现,然而在许多场景下,多代理互动问题带来了对强化学习的挑战。多代理场景作为深度强化学习中的另一个挑战,提出了一种基于最小最大的深度Q学习算法,在决策过程相比于传统方法中,该算法可以应对对手的变化并且做出更好的回应。通过研究对机器人足球的游戏实验的深入分析,进一步展示了该算法的能力,并且展示了该算法可以很好地应用于其他多代理场景。
出处
《电脑编程技巧与维护》
2018年第12期10-13,共4页
Computer Programming Skills & Maintenance