基于深度强化学习的车辆路径问题求解方法被引量：3

Solving vehicle routing problem using deep reinforcement learning

下载PDF

导出

摘要车辆路径问题作为交通运输与物流领域最为经典的组合运筹优化问题,历经几十年的研究和讨论经久不衰,智慧物流呈现出的数据规模大、不确定性强、时效性高等特点,给高效、智能地解决车辆路径问题提出了新的挑战,推动了利用人工智能方法解决车辆路径问题研究的发展。目前,有部分国内外学者对深度强化学习在车辆路径问题中的应用进行了研究,但所得结果尚有一定的优化空间。基于此,本文提出了一种基于上置信区间算法改进动作选择的深度Q网络方法。该深度强化学习方法通过定义智能体与环境交互过程,逐一选取节点构造解的方式“端到端”地解决车辆路径问题。首先,针对考虑车辆装载约束的车辆路径问题建立了深度强化学习框架,设计了该场景下的深度强化学习优化目标和马尔可夫决策过程,通过状态-动作空间、奖励函数等要素的设置完善了该过程;并基于Transformer框架的注意力机制、修正线性单元的神经元激活函数和自适应动量估计梯度下降算法的反向传播机制设计了一个状态-动作价值网络。其次,针对DQN方法的值函数过估计和探索局限问题,运用UCT算法改进了动作选择方式,以提高该方法的性能和收敛性。实验结果表明:改进后的DQN方法在实验中表现良好,所提方法应用在考虑装载能力约束的车辆路径问题中,相比传统DQN方法,在20、50、100的问题规模中实验结果分别提升了1.89%、1.10%和2.17%,证明该方法具有较好的性能和泛化能力。 As the most classic combinatorial optimization problem in transportation and logistics,the vehicle routing problem(VRP)remains to be solved after decades of research and discussion.However,intelligent logistics presents the characteristics of large data scale,significant uncertainty,and demanding timeliness,which pose challenges in solving the VRP efficiently and promotes research pertaining to the use of artificial intelligence to solve the VRP.Domestic and foreign scholars have investigated the application of deep reinforcement learning(DRL)for solving the VRP;however,the experimental results remain unsatisfactory.Hence,a deep Q-learning network(DQN)method based on the upper confidence bound apply to tree(UCT)is proposed herein to improve policy decisionmaking.This DRL method solves the VRP end-to-end by defining the interaction between the agent and environment and selecting nodes to construct solutions individually.First,a DQN framework is established to solve the capacitated vehicle routing problem(CVRP).The optimization objective of DRL and the Markov decision process for the CVRP are designed,where the process is designed by the setting of state,action,reward,and other elements.A state-action value network is designed based on the attention mechanism of the Transformer architecture,neuron activation function of modified linear units,and backpropagation mechanism of the adaptive momentum estimation gradient descent algorithm.Second,owing to the overestimation of the value function and exploration limitations of the DQN method,the UCT algorithm is used to improve the tendency of exploration and utilization in policy decision-making to improve the performance and convergence of the DQN method.Experimental results show that the improved DQN performs well,and that compared with the conventional DQN,our method achieves 1.89%,1.10%,and 2.17%improvements in terms of CVRP-20,-50,and-100,thereby proving the favorable performance and generalization ability of the improved method.

作者黄琰张锦 HUANG Yan;ZHANG Jin(School of Transportation and Logistics,Southwest Jiaotong University,Chengdu 6117561,China;National United Engineering Laboratory of Integrated and Intelligent Transportation,Chengdu 611756,China;National Engineering Laboratory of Integrated Transportation Big Data Application Technology,Chengdu 611756,China)

机构地区西南交通大学综合交通运输智能化国家地方联合工程实验室综合交通大数据应用技术国家工程实验室

出处《交通运输工程与信息学报》 2022年第3期114-127,共14页 Journal of Transportation Engineering and Information

基金四川省科技厅重点研发项目(2019YFG0001)。

关键词信息技术车辆路径问题深度强化学习深度Q网络 Transformer框架上置信区间算法 information technology vehicle routing problem deep reinforcement learning deep Q-learning networks transformer upper confidence bound apply to tree

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] U492.22 [交通运输工程—交通运输规划与管理]

引文网络
相关文献

参考文献11

1马俊,张纪会,郭乙运.基于混合修正策略的随机时间车辆路径优化方法[J].交通运输工程与信息学报,2021,19(4):87-97. 被引量：5
2程坦,陈鹏,张国伟,朱宁.部分充电策略下的多车型电动汽车车辆路径优化问题研究[J].交通运输工程与信息学报,2022,20(2):105-114. 被引量：4
3方云飞,王玉欢,刘玉飞.考虑载重影响的动力电池回收车辆路径问题研究[J].交通运输工程与信息学报,2022,20(2):115-124. 被引量：1
4张传琪,张杨.动态路网下多车型车辆路径问题研究[J].交通运输工程与信息学报,2017,15(2):112-118. 被引量：9
5苏欣欣,伊廷刚,秦虎.分支定价割平面法求解带时间窗和人力分配的车辆路径问题[J].交通运输工程与信息学报,2021,19(4):75-86. 被引量：4
6李路遥,沈一帆,夏俊,沈海辉.考虑一致性约束的车辆路径问题综述[J].交通运输工程与信息学报,2021,19(4):62-74. 被引量：4
7庞燕,罗华丽,邢立宁,任腾.车辆路径优化问题及求解方法研究综述[J].控制理论与应用,2019,36(10):1573-1584. 被引量：54
8牛鹏飞,王晓峰,芦磊,张九龙.强化学习在车辆路径问题中的研究综述[J].计算机工程与应用,2022,58(1):41-55. 被引量：8
9刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：436
10宁涛,陈荣,郭晨,冯瑞芳.一种基于云计算环境的动态车辆路径问题解决策略[J].交通运输工程与信息学报,2015,13(3):1-6. 被引量：2

二级参考文献101

1杨玲,马美红.网络配货[J].运输经理世界,2005(12):86-87. 被引量：1
2谢涛,陈火旺,康立山.二次背包问题的一种快速解法[J].计算机学报,2004,27(9):1162-1169. 被引量：4
3张建勇,李军,郭耀煌.模糊需求信息条件下的实时动态车辆调度问题研究[J].管理工程学报,2004,18(4):69-72. 被引量：29
4魏洁,李军.生产商延伸责任制下逆向物流回收模式研究[J].科技进步与对策,2005,22(6):143-145. 被引量：51
5魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
6郭耀煌,钟小鹏.动态车辆路径问题排队模型分析[J].管理科学学报,2006,9(1):33-37. 被引量：25
7柯良军,冯祖仁,冯远静.有限级信息素蚁群算法[J].自动化学报,2006,32(2):296-303. 被引量：17
8周长峰,谭跃进,廖良才.可变行驶时间的动态车辆路径与调度[J].交通运输系统工程与信息,2006,6(6):91-95. 被引量：4
9李兵,郑四发,曹剑东,杨扬,耿华,连小珉.求解客户需求动态变化的车辆路径规划方法[J].交通运输工程学报,2007,7(1):106-110. 被引量：29
10贺竹磬,孙林岩.动态交通下车辆路径选择模型及算法[J].交通运输工程学报,2007,7(1):111-115. 被引量：15

共引文献512

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：35
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：35
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：3
6李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430.
7刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
8蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
9甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：8
10方俊豪,李俊玲.基于遗传算法的某物流公司配送路径优化设计[J].城市建设理论研究（电子版）,2022(33):151-153.

同被引文献23

1殷亚峰,陆化普.动态网络交通信号配时模型研究[J].公路交通科技,1997,14(3):11-16. 被引量：8
2杨庆芳,杨朝.基于Q-学习算法的交通控制与诱导协同模式的在线选择[J].吉林大学学报（工学版）,2010,40(5):1215-1219. 被引量：3
3杨超,杨佩昆.均衡网络下交通控制策略的研究[J].中国公路学报,1999,12(3):90-94. 被引量：6
4詹海林,董景舜.青岛在全国首次开通“定制公交” 交运集团(青岛)开通“定制公交”,真的会成为公交车史上一次革命性创新吗?[J].运输经理世界,2013(9):20-23. 被引量：3
5王志美,张星臣,陈军华,盖振州.基于可变客流的接运公交网络优化[J].交通运输系统工程与信息,2015,15(5):128-135. 被引量：4
6<中国公路学报>编辑部.中国交通工程学术研究综述·2016[J].中国公路学报,2016,29(6):1-161. 被引量：304
7张思林,袁振洲,曹志超.基于出行成本和运营成本的接驳城市轨道交通社区公交站点布设研究[J].北京交通大学学报,2016,40(6):57-63. 被引量：12
8胡继华,高立晓,梁嘉贤,蔡铭.一种多目标的公交线网规划模型[J].重庆交通大学学报（自然科学版）,2017,36(12):102-109. 被引量：7
9杜茂,杨林,金悦,涂家毓.基于交通时空特征的车辆全局路径规划算法[J].汽车安全与节能学报,2021,12(1):52-61. 被引量：5
10李文礼,张友松,韩迪,钱洪,石晓辉.基于深度强化学习的车辆自主避撞决策控制模型[J].汽车安全与节能学报,2021,12(2):201-209. 被引量：6

引证文献3

1彭显玥,王昊.交通分配与信号控制组合优化研究综述[J].交通运输工程与信息学报,2023,21(1):1-18. 被引量：4
2韩月一,王登忠,王如杰,马东方,袁超.城市地铁站点接驳公交多目标优化方法[J].交通运输工程与信息学报,2023,21(1):80-93. 被引量：3
3韩玲,张晖,方若愚,刘国鹏,朱长盛,迟瑞丰.基于改进深度强化学习的全局路径规划策略[J].汽车安全与节能学报,2023,14(2):202-211. 被引量：1

二级引证文献8

1魏贺,刘昊飞,许丹丹,韩雪华,王良,张晓东.双层规划在城市交通领域研究与应用的系统综述[J].运筹学学报,2023,27(2):1-26.
2温慧敏,朱珊,孙建平,张建波,张晶晶.轨道新线对公共交通乘客吸引力影响因素研究[J].交通运输系统工程与信息,2023,23(4):282-289.
3单肖年,胡颖,寇泷丹,叶倩,万长薪.碳达峰目标下城市公共交通系统低碳转型路径[J].交通运输工程与信息学报,2023,21(3):1-12. 被引量：3
4杨晓光,朱际宸,彭晴,杨彦青,郭宇峥,马成元.面向预约出行的车路联网与协同交通控制:前沿与展望[J].上海理工大学学报,2023,45(4):307-320.
5孙崇效,李昕光,胡含,于文昌.考虑二次排队的智能网联车生态驾驶策略[J].交通运输工程与信息学报,2023,21(4):92-102.
6林晓生,顾宇忻,张薇,郑贵兵.MaaS场景下考虑用户异质性的交通分配模型[J].交通与运输,2024,40(1):99-104.
7解晓乐.基于深度强化学习的智慧物流园区长途配送路径规划方法[J].广州航海学院学报,2024,32(1):30-34.
8王文卿,田劲杰,马刘听,喻铃华,刘丰军,陈秀锋.杭州西站出租车网约车接驳系统智慧化提升[J].交通科技与经济,2024,26(3):55-61.

1王梅,吴同政,张俊杰.贵州交通运输与物流系统发展耦合协同发展研究[J].现代商业,2022(4):88-91. 被引量：1
2刘春生,梅艺华,徐佩瑛,郭明德,林琛.政校企行业联手协同打造南昌(向塘)陆港新城的建议[J].服装论丛,2021(2):47-53.
3魏锋,刘慧凤,王威威.基于耦合协调度模型的广西物流业高质量发展路径探讨[J].物流科技,2022,45(5):112-117. 被引量：2
4王珂,姚建国,余佩遥,杨胜春,钟海旺,严嘉豪.基于深度强化学习的电网前瞻调度智能决策架构及关键技术初探[J].中国电机工程学报,2022,42(15):5430-5438. 被引量：8
5赵尚维康,孙君.工业物联网中基于SMDP的协同卸载方案[J].计算机技术与发展,2022,32(9):76-81. 被引量：1
6刘金华.基于飞桨NLP的虚假新闻检测方法[J].信息与电脑,2022,34(10):14-16. 被引量：1
7罗森林,魏继勋,刘晓双,潘丽敏.面向多目标参数整定的协同深度强化学习方法[J].北京理工大学学报,2022,42(9):969-975. 被引量：1
8马文芳,胡英,王天军,谢永胜.用于单音音乐音高估计的密集扩张卷积残差网络[J].东北师大学报（自然科学版）,2022,54(3):90-97. 被引量：1
9张定强,解璐遥,冯敏.《数学教育学报》创刊三十年:成就梳理及前景展望[J].数学教育学报,2022,31(4):86-90. 被引量：4
10袁思邈,方春,孙福振.基于改进残差网络的热轧带钢表面缺陷研究[J].计算机仿真,2022,39(7):243-247. 被引量：2

交通运输工程与信息学报

2022年第3期

浏览历史

内容加载中请稍等...

基于深度强化学习的车辆路径问题求解方法被引量：3

参考文献11

二级参考文献101

共引文献512

同被引文献23

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的车辆路径问题求解方法 被引量：3

参考文献11

二级参考文献101

共引文献512

同被引文献23

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的车辆路径问题求解方法被引量：3