策略梯度的超启发算法求解带容量约束车辆路径问题

Hyper-heuristic for the capacitated vehicle routing problem with policy gradient

下载PDF

导出

摘要有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策略梯度算法采用Actor-Critic框架,另外为了能够在后续计算和神经网络参数更新中引用历史经验数据,在确定性策略梯度算法中设计了经验池用于存储状态转移数据.在超启发算法解的接受准则方面,文中通过实验对比了3种接受准则的效果,最终选择了自适应接受准则作为高层策略中解的接受准则.通过对有容量车辆路径问题标准算例的计算,并将求解结果与其他算法对比,验证了所提算法在该问题求解上的有效性和稳定性. The capacitated vehicle routing problem is popular in combinatorial optimization.It is a classic NP-hard problem with high time complexity.This paper proposed a hyper-heuristic algorithm based on policy gradient.The deterministic policy gradient algorithm in reinforcement learning is introduced into the low-level algorithm selection strategy in the high-level heuristic strategy of the hyper-heuristic algorithm.The deterministic policy gradient algorithm adopts the Actor-Critic framework.In addition,to reference historical experience data in subsequent calculations and parameter updates of neural networks,the experience pool is designed to store state transition data in a deterministic policy gradient algorithm.In terms of the acceptance criteria of the hyper-heuristic algorithm,the paper compared the effects of the three acceptance criteria through experiments,and finally,the adaptive acceptance criterion is chosen as the acceptance criterion in the high-level heuristic strategy.The effectiveness and stability of the proposed algorithm in solving the capacitated vehicle routing problem are verified by calculating the standard example and comparing with the results of other algorithms.

作者张景玲孙钰粟赵燕伟余孟凡蒋玉勇 ZHANG Jing-ling;SUN Yu-su;ZHAO Yan-wei;YU Meng-fan;JIANG Yu-yong(Key Laboratory of Special Equipment Manufacturing and Advanced Processing Technology,Zhejiang University of Technology,Hangzhou Zhejiang 310014,China)

机构地区浙江工业大学特种装备制造及先进加工技术教育部重点实验室

出处《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1111-1122,共12页 Control Theory & Applications

基金国家自然科学基金项目(61402409) 浙江省自然科学基金项目(LY19F030017)资助。

关键词车辆路径问题强化学习关策略梯度算法神经网络超启发算法 vehicle routing problem reinforcement learning policy gradient neural networks hyper-heuristic

分类号 U492.22 [交通运输工程—交通运输规划与管理] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Suresh Nanda Kumar,Ramasamy Panneerselvam.A Survey on the Vehicle Routing Problem and Its Variants[J].Intelligent Information Management,2012,4(3):66-74. 被引量：7
2郑小操,龚文引.改进人工蜂群算法求解模糊柔性作业车间调度问题[J].控制理论与应用,2020,37(6):1284-1292. 被引量：39
3廖作文,龚文引,王凌.基于改进环拓扑混合群体智能算法的非线性方程组多根联解[J].中国科学：信息科学,2020,50(3):396-407. 被引量：19
4张景玲,刘金龙,赵燕伟,王宏伟,冷龙龙,冯勤炳.时间依赖型同时取送货VRP及超启发式算法[J].计算机集成制造系统,2020,26(7):1905-1917. 被引量：19
5Bingjie Li,Guohua Wu,Yongming He,Mingfeng Fan,Witold Pedrycz.An Overview and Experimental Study of Learning-Based Optimization Algorithms for the Vehicle Routing Problem[J].IEEE/CAA Journal of Automatica Sinica,2022,9(7):1115-1138. 被引量：4
6张景玲,冯勤炳,赵燕伟,刘金龙,冷龙龙.基于强化学习的超启发算法求解有容量车辆路径问题[J].计算机集成制造系统,2020,26(4):1118-1129. 被引量：11
7陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：22
8李阳,范厚明.求解带容量约束车辆路径问题的混合变邻域生物共栖搜索算法[J].控制与决策,2018,33(7):1190-1198. 被引量：25

二级参考文献26

1赵燕伟,彭典军,张景玲,吴斌.有能力约束车辆路径问题的量子进化算法[J].系统工程理论与实践,2009,29(2):159-166. 被引量：41
2罗先国,侍洪波.非满载车辆路径问题的改进粒子群优化算法[J].华东理工大学学报（自然科学版）,2006,32(7):767-771. 被引量：4
3姜昌华,戴树贵,胡幼华.求解车辆路径问题的混合遗传算法[J].计算机集成制造系统,2007,13(10):2047-2052. 被引量：33
4吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
5李霜天,段海滨.基于人工蜂群优化的高超声速飞行器在线参数辨识[J].中国科学：信息科学,2012,42(11):1350-1363. 被引量：7
6周方,张小凤,张光斌,李锦.蚁群算法中参数设置对超声回波估计性能的影响[J].中国科学：信息科学,2013,43(2):243-253. 被引量：7
7段海滨,张岱峰,范彦铭,邓亦敏.从狼群智能到无人机集群协同决策[J].中国科学：信息科学,2019,49(1):112-118. 被引量：49
8曹高立,胡蓉,钱斌,吴丽萍.一种有效混合量子进化算法求解带容量约束的车辆路径优化问题[J].计算机集成制造系统,2015,21(4):1101-1113. 被引量：18
9穆东,王超,王胜春,周圣川.基于并行模拟退火算法求解时间依赖型车辆路径问题[J].计算机集成制造系统,2015,21(6):1626-1636. 被引量：38
10张晓楠,范厚明.混合分散搜索算法求解带容量约束车辆路径问题[J].控制与决策,2015,30(11):1937-1944. 被引量：14

共引文献127

1赵燕伟,冷龙龙,王舜,张春苗.进化式超启发算法求解多车型低碳选址-路径问题[J].控制与决策,2020,35(2):257-271. 被引量：5
2刘文文,熊伟,韩驰.基于改进超启发算法的通信卫星任务松弛调度方法[J].计算机科学,2022,49(S02):887-892. 被引量：1
3曹平方,李灵,李诗珍.基于分枝界定的VRP模型精确算法研究及应用[J].包装工程,2014,35(17):97-101. 被引量：14
4尤志宁,浦云明.随机样本遗传MLP模型算法[J].计算机工程与应用,2015,51(21):121-127. 被引量：1
5阳旺,何国超,吴雁.基于密度聚类构建物流配送问题的毁灭移除算法[J].计算机应用,2017,37(8):2387-2394.
6戚远航,蔡延光,蔡颢,杨亮,YAO Yeboah.带容量约束的供应链物流运输调度问题的双层变邻域蝙蝠算法[J].电子学报,2019,47(7):1434-1442. 被引量：14
7黄戈文,蔡延光,戚远航,陈厚仁,王世豪.自适应遗传灰狼优化算法求解带容量约束的车辆路径问题[J].电子学报,2019,47(12):2602-2610. 被引量：28
8张景玲,冯勤炳,赵燕伟,刘金龙,冷龙龙.基于强化学习的超启发算法求解有容量车辆路径问题[J].计算机集成制造系统,2020,26(4):1118-1129. 被引量：11
9李斌成,何国强.改进遗传算法在容量约束车辆路径问题中的应用研究[J].供应链管理,2020,1(3):107-116. 被引量：4
10庞燕,罗华丽,夏扬坤.基于禁忌搜索算法的废弃家具回收车辆路径优化[J].计算机集成制造系统,2020,26(5):1425-1433. 被引量：13

1王雪松,王荣荣,程玉虎.基于表征学习的离线强化学习方法研究综述[J].自动化学报,2024,50(6):1104-1128.
2彭泽华,林晓波,潘光帅.基于强化学习补偿器的水下航行器姿态控制[J].网络新媒体技术,2023,12(6):36-43.
3白雪媛,张磊,李琳.基于GA-ALNS算法的带可容忍时间窗的VRP求解[J].沈阳师范大学学报（自然科学版）,2024,42(1):81-87.
4赵乐,郑重,王新奕,费泽松.面向无人机通信的区域化智能波束管理[J].无线电通信技术,2024,50(3):503-509.
5余晨.基于贝叶斯框架的协方差矩阵估计模型研究[J].运筹与模糊学,2024,14(2):1276-1295.
6王义宇,袁帅,张泽旭.月面飞行器动力下降段多目标轨迹规划[J].空间控制技术与应用,2024,50(2):1-11.
7常昊,李剑,林静,韩闯.高校专利转移分析平台的构建与实证研究[J].情报探索,2024(7):110-119.

控制理论与应用

2024年第6期

浏览历史

内容加载中请稍等...

策略梯度的超启发算法求解带容量约束车辆路径问题

参考文献8

二级参考文献26

共引文献127

相关作者

相关机构

相关主题

浏览历史