为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert)。该算法依据样...为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert)。该算法依据样本价值将样本池分类,使用专家数据预训练网络,缩小无人车无效探索空间、降低试错次数,有效提升算法学习效率。同时设计一种面向多障碍物的奖励函数增强算法适用性。在CARLA平台进行仿真实验,结果表明所提出方法可以更好地控制无人车在环境中安全行驶,同等训练次数下所得奖励值和收敛速度优于TD3(twin delayed deep deterministic policy gradient algorithm)和SAC算法。最后,结合雷达点云地图与PID(proportional integral derivative)控制方法缩小仿真环境与真实场景差异性,将训练所得模型移植到园区低速无人车中验证算法泛用性。展开更多
文摘为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert)。该算法依据样本价值将样本池分类,使用专家数据预训练网络,缩小无人车无效探索空间、降低试错次数,有效提升算法学习效率。同时设计一种面向多障碍物的奖励函数增强算法适用性。在CARLA平台进行仿真实验,结果表明所提出方法可以更好地控制无人车在环境中安全行驶,同等训练次数下所得奖励值和收敛速度优于TD3(twin delayed deep deterministic policy gradient algorithm)和SAC算法。最后,结合雷达点云地图与PID(proportional integral derivative)控制方法缩小仿真环境与真实场景差异性,将训练所得模型移植到园区低速无人车中验证算法泛用性。