摘要
交通领域的传统线性规划方法仅在静态网络中求解有限规模的资源调度问题。笔者面向城市巡游出租车长周期运营过程优化目标,使用融合了监督学习神经网络机制和奖励的深度强化学习技术替代线性规划,将动态交通网络中表征乘客和驾驶员出行行为下的时空变化特征、状态属性特征和交互关系特征等领域知识转换映射为包含状态、行为、转移概率和奖励函数等元组的马尔可夫过程.
作者
马祥元
MA Xiangyuan(Changjiang Spatial Information Technology Engineering Co.Ltd(Wuhan),Wuhan 430010,China)
出处
《武汉大学学报(信息科学版)》
EI
CAS
CSCD
北大核心
2023年第12期2108-2108,共1页
Geomatics and Information Science of Wuhan University