深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DD...深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.展开更多
自动驾驶赛车需实现路径与车速的同步规划以满足最快驾驶策略需求,但车辆行驶路径与车速的时空耦合关系使得优化问题难以构建与求解。为此,提出一种面向自动驾驶赛车的轨迹规划方法(Simultaneous path and speed planning,SP^(2)),实现...自动驾驶赛车需实现路径与车速的同步规划以满足最快驾驶策略需求,但车辆行驶路径与车速的时空耦合关系使得优化问题难以构建与求解。为此,提出一种面向自动驾驶赛车的轨迹规划方法(Simultaneous path and speed planning,SP^(2)),实现路径与车速的快速协同规划。首先,构建包括赛道边界与车辆动力学约束的自动驾驶赛车轨迹规划问题;然后,建立赛车的稳态动作空间与包含时空位置信息的状态-动作空间,通过离线遍历法确定赛车的可行运动状态转移关系;接着,基于稳态动作空间与运动状态转移网,将原时间最优轨迹优化问题转换为单位时间步长内运动距离最远的优化问题,并通过滚动多步优化实现赛车圈速最小(时间最优)轨迹的优化。最后,开展自动驾驶赛车轨迹规划的仿真与微缩试验平台试验。结果表明,所提出的SP^(2)算法可以高效地实现自动驾驶赛车的全局路径与车速规划,并且较常规中心线轨迹具有更快的圈速。展开更多
文摘深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.
文摘自动驾驶赛车需实现路径与车速的同步规划以满足最快驾驶策略需求,但车辆行驶路径与车速的时空耦合关系使得优化问题难以构建与求解。为此,提出一种面向自动驾驶赛车的轨迹规划方法(Simultaneous path and speed planning,SP^(2)),实现路径与车速的快速协同规划。首先,构建包括赛道边界与车辆动力学约束的自动驾驶赛车轨迹规划问题;然后,建立赛车的稳态动作空间与包含时空位置信息的状态-动作空间,通过离线遍历法确定赛车的可行运动状态转移关系;接着,基于稳态动作空间与运动状态转移网,将原时间最优轨迹优化问题转换为单位时间步长内运动距离最远的优化问题,并通过滚动多步优化实现赛车圈速最小(时间最优)轨迹的优化。最后,开展自动驾驶赛车轨迹规划的仿真与微缩试验平台试验。结果表明,所提出的SP^(2)算法可以高效地实现自动驾驶赛车的全局路径与车速规划,并且较常规中心线轨迹具有更快的圈速。