现有的出租车调度模型通常只优化实时成本而忽视当前路径规划对未来运营收益的影响,这不利于自动驾驶环境下的连续调度。为此,本文提出一个专注于长期收益的路径规划模型,并利用强化学习将预估的未来运营收益整合到实时调度问题中。模...现有的出租车调度模型通常只优化实时成本而忽视当前路径规划对未来运营收益的影响,这不利于自动驾驶环境下的连续调度。为此,本文提出一个专注于长期收益的路径规划模型,并利用强化学习将预估的未来运营收益整合到实时调度问题中。模型的具体求解方法是先利用神经网络来拟合车辆的不同时空状态的状态价值函数,再通过双神经网络和经验池的方式加快算法收敛。深圳路网仿真实验表明,所提出的调度模型能够预先精准地调度车队,服务更多乘客,获得更大的运营收益;并且模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid,V2G)技术进行充放电,从而降低车队的能耗成本。相较于其他调度模型,该模型在长期运营中实现乘客匹配服务率增加4%,总收益提高25%,能耗成本节省50%以及乘客等待时间降低20%。展开更多
文摘现有的出租车调度模型通常只优化实时成本而忽视当前路径规划对未来运营收益的影响,这不利于自动驾驶环境下的连续调度。为此,本文提出一个专注于长期收益的路径规划模型,并利用强化学习将预估的未来运营收益整合到实时调度问题中。模型的具体求解方法是先利用神经网络来拟合车辆的不同时空状态的状态价值函数,再通过双神经网络和经验池的方式加快算法收敛。深圳路网仿真实验表明,所提出的调度模型能够预先精准地调度车队,服务更多乘客,获得更大的运营收益;并且模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid,V2G)技术进行充放电,从而降低车队的能耗成本。相较于其他调度模型,该模型在长期运营中实现乘客匹配服务率增加4%,总收益提高25%,能耗成本节省50%以及乘客等待时间降低20%。