强化学习在车辆路径问题中的研究综述被引量：9

Survey on Vehicle Reinforcement Learning in Routing Problem

下载PDF

导出

摘要车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。 Vehicle routing problem is the key technologies in the field of logistics research.Its purpose is to get a lowest cost vehicle routing plan while meeting the customer’s needs.However,with the increasing of problem size in logistics transportation,the real-time requirement of solving vehicle routing problem is increasing,and the traditional algorithm cannot realize the requirements of the industry gradually.For decades,a number of new methods use reinforcement learning and deep reinforcement learning to solve vehicle routing problem.Base on simple analysis of conventional methods for solving vehicle routing problem,this review summaries the current algorithms for solving vehicle routing problem based on reinforcement learning.Reinforcement learning algorithms are divided into dynamic programming,value-based and policy-based.This paper summarizes the theoretical foundation and studying status.Finally,the future development direction of vehicle routing problem based on reinforcement learning and deep reinforcement learning is prospected.

作者牛鹏飞王晓峰芦磊张九龙 NIU Pengfei;WANG Xiaofeng;LU Lei;ZHANG Jiulong(College of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China;The Key Laboratory of Images&Graphics Intelligent Processing of State Ethnic Affairs Commission,North Minzu Uni-versity,Yinchuan 750021,China)

机构地区北方民族大学计算机科学与工程学院北方民族大学图像图形智能处理国家民委重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2022年第1期41-55,共15页 Computer Engineering and Applications

基金国家自然科学基金(62062001,61762019,61862051,61962002) 宁夏自然科学基金(2020AAC03214,2020AAC03219,2019AAC03120,2019AAC03119) 北方民族大学重大专项(ZDZX201901)。

关键词车辆路径问题马尔科夫决策过程强化学习深度强化学习 vehicle routing problem Markov decision process reinforcement learning deep reinforcement learning

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1孔媛,唐加福,董纲,张军.插入算法求接送顾客到机场的车辆调度问题[J].控制理论与应用,2009,26(1):92-96. 被引量：3
2穆东,王超,王胜春,周圣川.基于并行模拟退火算法求解时间依赖型车辆路径问题[J].计算机集成制造系统,2015,21(6):1626-1636. 被引量：39
3刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：129

二级参考文献38

1马云峰,张敏,杨珺.物流设施选址问题中时间满意度函数的定义及应用[J].物流技术,2005,24(9):26-29. 被引量：28
2王正国,刘振元,王红卫.适应性禁忌搜索算法求解带回程的时变速度车辆路径问题[J].计算机集成制造系统,2006,12(9):1453-1458. 被引量：4
3BODIN L, GOLDEN B, ASSAD A. Routing and scheduling of vehicles and crews: the state of the art[J]. Computation and Operation Research, 1983, 52(10): 62- 212.
4CLARKE G, WRIGHT JW. Scheduling of vehicles from a central depot to a number of delivery points[J]. Operations Research, 1964, 12(4): 568 - 581.
5唐加福董纲.航空票务公司免费接送服务中车次分配与调度问题的多目标规划模型及算法.管理科学学报,2009,12(6).
6SOLOMON M M. Algorithms for the vehicle routing and scheduling problems with time window constraints[J]. Operations Research, 1987, 35(2): 254 - 265.
7IOANNOU G, KRITIKOS, M, PRASTACOS G. A greedy lookahead heuristic for the vehicle routing problem with time windows[J]. Journal of the Operational Research Society, 2001, 52(5): 523 - 537.
8BRAYSY O. A reactive variable neighborhood search for the vehicle routing problem with time windows[J]. INFORMS Journal on Computing, 2003, 15(4): 347 - 368.
9POTVIN, J Y, ROUSSEAN J M. A parallel route building algorithm for the vehicle routing and scheduling problem with time windows[J]. European Journal of Operations Research, 1993, 66:331 - 340.
10BRAYSY O, HASLE G, BERGER J, et al. Multi-start local search algorithm for the vehicle routing problem with time windows[J]. European Journal of Operational Research, 2004, 159(2): 586 - 605.

共引文献167

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
2张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
3丁满,张寿宇,黄晓光,李明惠.基于支持向量机回归与模拟退火算法的产品外观意象设计[J].机械设计,2020,37(3):135-140. 被引量：7
4马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
5闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
6余伶俐,焦继乐,蔡自兴.一种多机器人任务规划算法及其系统实现[J].计算机科学,2010,37(6):252-255. 被引量：5
7刘俊红.3中药汤剂对胃溃疡治疗机理的探讨[J].河南中医,2000,20(3):28-28. 被引量：3
8毕国通.车辆路径问题及其优化算法研究综述[J].物流科技,2016,39(6):95-97. 被引量：10
9季晓红.基于人工免疫系统算法的建材企业车辆路径问题优化[J].中国管理信息化,2017,20(15):57-58. 被引量：1
10刘兰芬,杨信丰.时间依赖网络城市物流车辆调度的模型及算法[J].工业工程,2017,20(4):18-24. 被引量：2

同被引文献155

1蔺一帅,李青山,陆鹏浩,孙雨楠,王亮,王颖芝.智能仓储货位规划与AGV路径规划协同优化算法[J].软件学报,2020,31(9):2770-2784. 被引量：26
2李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：13
3王丽媛,郭树生,安吉祥.基于枚举法的海上风电智能运维调度模型[J].船舶工程,2022,44(2):28-34. 被引量：7
4刘颖.新型冠状病毒疫情下关于加快建立应急物流体系的思考[J].公路交通科技,2020,37(S01):46-48. 被引量：9
5翟泳,刘杰华,张伟,樊铭渠.空车配货VRP问题的路径匹配算法[J].交通运输工程与信息学报,2008,6(3):91-95. 被引量：1
6张琛,詹志辉.遗传算法选择策略比较[J].计算机工程与设计,2009,30(23):5471-5474. 被引量：72
7于振中,闫继宏,赵杰,陈志峰,朱延河.改进人工势场法的移动机器人路径规划[J].哈尔滨工业大学学报,2011,43(1):50-55. 被引量：120
8李大卫,王莉,王梦光.遗传算法在有时间窗车辆路径问题上的应用[J].系统工程理论与实践,1999,19(8):65-69. 被引量：52
9吴昊,倪志伟,王会颖.基于MapReduce的蚁群算法[J].计算机集成制造系统,2012,18(7):1503-1509. 被引量：22
10宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：26

引证文献9

1黄琰,张锦.基于深度强化学习的车辆路径问题求解方法[J].交通运输工程与信息学报,2022,20(3):114-127. 被引量：5
2陈文秀,陈洪波.国内应急物流研究的综述与展望[J].物流工程与管理,2022,44(10):1-6. 被引量：1
3颜伟,孙佳旭,崔若梁.仓库拣选路径问题研究综述[J].科学技术与工程,2022,22(32):14081-14089.
4徐涛,孙鉴,刘陈伟.基于Spark的自适应蚁群算法对CVRP问题的求解[J].中兴通讯技术,2022,28(6):95-100. 被引量：1
5喻凯旋,林富生,宋志峰,余联庆.基于梯度奖励的深度强化学习移动机器人路径规划[J].机床与液压,2023,51(17):32-38.
6廖登宇,张震,赵德京,崔浩岩.基于多智能体深度强化学习的机器人协作搬运方法[J].电子设计工程,2023,31(23):7-11.
7顾晓薇,王开拓,胥孝川,赵昀奇,王宏宇.基于改进遗传算法的开采计划优化研究[J].矿业研究与开发,2024,44(2):28-32.
8王健铭,王欣,李养辉,王殿龙.基于改进D3QN算法的泊车机器人路径规划[J].计算机与现代化,2024(3):7-14.
9黄玉春,宋俊,王宸,孙楠,王勤,钟毓宁.基于变体天牛须改进QL的AGV路径规划算法研究[J].制造技术与机床,2024(10):89-97.

二级引证文献7

1彭显玥,王昊.交通分配与信号控制组合优化研究综述[J].交通运输工程与信息学报,2023,21(1):1-18. 被引量：6
2韩月一,王登忠,王如杰,马东方,袁超.城市地铁站点接驳公交多目标优化方法[J].交通运输工程与信息学报,2023,21(1):80-93. 被引量：3
3韩玲,张晖,方若愚,刘国鹏,朱长盛,迟瑞丰.基于改进深度强化学习的全局路径规划策略[J].汽车安全与节能学报,2023,14(2):202-211. 被引量：1
4周岳亮,李宗阳,李绍铭.基于文本的网络安全事件检测技术研究与探索[J].自动化与仪器仪表,2023(8):79-82. 被引量：1
5彭晨,俞媛,韦海玥,陈敬贤.基于众包的应急物流共同配送模式初探[J].中国储运,2024(2):95-96.
6罗佳,李朝锋.基于残差图卷积网络与深度强化学习的需求可拆分车辆路径优化算法[J].控制理论与应用,2024,41(6):1123-1136.
7张子贤,关伟,奇格奇.基于多智能体元强化学习的危险品运输路径优化[J].交通运输工程与信息学报,2024,22(3):93-106.

1董含笑,陈哲涵,鲁晓,陈星浩.基于虚拟仿真的物流运输优化实验研究[J].起重运输机械,2020(20):166-171. 被引量：3
2赵文杰.基于完成率指标的物流运输优化实践[J].石油化工技术与经济,2021,37(5):26-30.
3王红梅,段则光,周万礼,郝梁.汽车零部件入厂物流循环取货路径规划[J].中国新技术新产品,2021(20):126-129. 被引量：2
4刘春生.网络货运平台的三级武功[J].中国储运,2022(1):42-43.
5陈超,徐瑞,李朝玉,朱圣英,梁子璇.期望状态序列导向的深空探测器规划修复方法[J].宇航学报,2021,42(11):1385-1395. 被引量：1

计算机工程与应用

2022年第1期

浏览历史

内容加载中请稍等...

强化学习在车辆路径问题中的研究综述被引量：9

参考文献3

二级参考文献38

共引文献167

同被引文献155

引证文献9

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

强化学习在车辆路径问题中的研究综述 被引量：9

参考文献3

二级参考文献38

共引文献167

同被引文献155

引证文献9

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

强化学习在车辆路径问题中的研究综述被引量：9