摘要
随着神经网络的兴起,强化学习在许多传统游戏上的表现越来越好。然而这些表现并不能应用于自动驾驶当中,因为现实世界中的状态空间极其复杂,而且动作空间是连续的,需要精细的控制。为了保证自动驾驶在复杂环境下的稳定性,选用Deep Deterministic Policy Gradient(DDPG)算法代替传统控制方法,此算法有较好的能力处理复杂环境的连续控制问题。选用The Open Racing Car Simulator(TORCS)作为仿真环境,并给出了定量和定性的结论。
出处
《自动化应用》
2020年第5期57-59,共3页
Automation Application