-
题名基于深度强化学习的多配送中心车辆路径规划
被引量:13
- 1
-
-
作者
王万良
陈浩立
李国庆
冷龙龙
赵燕伟
-
机构
浙江工业大学计算机科学与技术学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2022年第8期2101-2109,共9页
-
基金
国家自然科学基金项目(61873240)。
-
文摘
多配送中心车辆路径规划(multi-depot vehicle routing problem,MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解.
-
关键词
多配送中心车辆路径规划
强化学习
多智能体
注意力机制
策略梯度
局部搜索
-
Keywords
mult-depot vehicle routing problem
reinforcement learning
multi agent
attention mechanism
policy gradient
local search
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-