基于多任务强化学习的堆垛机调度与库位推荐

Stacker Scheduling and Repository Location Recommendation Based on Multi-Task Reinforcement Learning

下载PDF

导出

摘要堆垛机调度是物流仓储自动化中的重要任务,任务中的出入库效率、货物存放等情况影响仓储系统的整体效益。传统调度方法在面对较大规模调度问题时,因处理大状态空间从而导致性能受限和收益降低。与此同时,库位优化与调度运行联系密切,但现有多数工作在处理调度问题时未能考虑到库位优化问题。为解决仓储中堆垛机调度问题,提出一种基于深度强化学习算法的近端策略优化调度方法。将调度问题视为序列决策问题,通过智能体与环境的持续交互进行自我学习,以在不断变化的环境中优化调度。针对调度中伴生的库位优化问题,提出一种基于多任务学习的调度、库位推荐联合算法,并基于调度网络构建适用于库位推荐的Actor网络,通过与Critic网络进行交互反馈,促进整体的联动和训练,从而提升整体效益。实验结果表明,与原算法模型相比,该调度方法的累计回报值指标平均提升了33.6%,所提的多任务学习的联合算法能有效地应对堆垛机调度和库位优化的应用场景,可为该类多任务问题提供可行的解决方案。 Stacker scheduling is an essential task in warehousing automation.Inbound-outbound efficiency and storage situations affect overall efficiency.When handling large-scale problems,traditional scheduling methods cannot achieve performance because processing large state spaces is challenging.Meanwhile,optimization of repository location is closely related to scheduling operation,but most existing works ignore it when addressing scheduling problems.To solve the scheduling problem,this study proposes a method based on the deep reinforcement learning algorithm Proximal Policy Optimization(PPO).The method considers the warehousing scheduling a sequence decision-making problem.It conducts self-learning through continuous interaction between agent and environment,thereby optimizing the scheduling in a changing environment.A novel algorithm based on multitask learning network is proposed to address the optimization problem of repository location with scheduling tasks.Based on the scheduling network,the algorithm constructs an actor network of repository recommendations.The actor network participates in training through interactive feedback with the critic network,thereby promoting the overall benefit.The experimental results affirm the efficacy of the proposed scheduling method,as evidenced by its average increase of 33.6% in the index of cumulative reward in comparison to the original algorithm model.The proposed multitask learning network can effectively handle the scenarios of stacker scheduling and repository location optimization,thus providing a feasible solution for this type of multitask problem.

作者饶东宁罗南岳 RAO Dongning;LUO Nanyue(School of Computers,Guangdong University of Technology,Guangzhou 510006,China)

机构地区广东工业大学计算机学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第2期279-287,295,共10页 Computer Engineering

基金广东省自然科学基金面上项目(2021A1515012556)。

关键词堆垛机调度库位优化多任务学习深度强化学习近端策略优化 stacker scheduling location optimization multi-task learning deep reinforcement learning Proximal Policy Optimization(PPO)

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1汤洪涛,闫伟杰,陈青丰,鲁建厦,詹燕.自动化立体仓库货位分配与作业调度集成优化[J].计算机科学,2020,47(5):204-211. 被引量：23
2周伟枭,蓝雯飞.融合文本分类的多任务学习摘要模型[J].计算机工程,2021,47(4):48-55. 被引量：3
3杨思明,单征,丁煜,李刚伟.深度强化学习研究综述[J].计算机工程,2021,47(12):19-29. 被引量：52
4饶东宁,郭海峰,蒋志华.基于并行概率规划的股票指数模拟[J].计算机学报,2019,42(6):1334-1350. 被引量：4
5鲁建厦,陈寿伍,易文超,汤洪涛.跨层穿梭车仓储系统复合作业路径规划[J].计算机集成制造系统,2021,27(6):1799-1808. 被引量：5
6于赫年,白桦,李超.仓储式多AGV系统的路径规划研究及仿真[J].计算机工程与应用,2020,56(2):233-241. 被引量：37

二级参考文献38

1周军,赵长友,刘战强,杨云,李剑峰.烟丝原料立体仓库堆垛机出入库作业优化研究[J].计算机集成制造系统,2009,15(4):772-776. 被引量：11
2周永权,谢竹诚.求解TSP的改进人工鱼群算法[J].系统工程与电子技术,2009,31(6):1458-1461. 被引量：18
3王红卫,马勇,谢勇,郭敏.基于平滑A^＊算法的移动机器人路径规划[J].同济大学学报（自然科学版）,2010,38(11):1647-1650. 被引量：110
4杨朋,缪立新.自动化存取系统控制优化研究综述[J].工业工程,2011,14(1):123-127. 被引量：5
5方伟华.基于A＊算法和图遍历的烟草物流VRP的研究[J].计算机技术与发展,2011,21(12):63-65. 被引量：2
6王友钊,彭宇翔,潘芬兰.基于贪心算法和遗传算法的仓储车辆调度算法[J].传感器与微系统,2012,31(10):125-128. 被引量：22
7饶东宁,蒋志华,姜云飞.PDDL的ER建模以及开发基于存储过程的规划器[J].软件学报,2013,24(5):1061-1077. 被引量：1
8杨朋,缪立新,秦磊.多载具自动化存取系统作业调度优化[J].计算机集成制造系统,2013,19(7):1626-1632. 被引量：8
9全浩军,张涛,郭继昌.基于改进人工鱼群算法的软硬件划分方法[J].天津大学学报（自然科学与工程技术版）,2013,46(10):923-928. 被引量：7
10马宪民,刘妮.自适应视野的人工鱼群算法求解最短路径问题[J].通信学报,2014,35(1):1-6. 被引量：44

共引文献118

1饶东宁,陈境凯,马丹鹏,崔垣嫄.基于概率并行规划的自动物流仓储建模与调度[J].计算机应用研究,2020,37(S02):136-138. 被引量：4
2顾明星,张皓,陈海洋,王博丰.基于无线射频和超声波的室内定位装置[J].北京印刷学院学报,2019,27(10):113-117. 被引量：4
3刘燕,程新生.基于变压器生产车间环境AGV系统方案设计[J].内蒙古科技与经济,2019,0(24):78-79.
4李向宇,李峰,杨宁.某商用车总装线水箱分装工位IE改善[J].湖北汽车工业学院学报,2020,34(1):72-75.
5卢进星,陶建华.基于Plant Simulation的发泡陶瓷生产线AGVS系统仿真研究[J].机电工程技术,2020,49(3):58-60. 被引量：1
6黄翼虎,郝国笑.基于时间窗防冲突的最短路径规划研究[J].电子测量技术,2020,43(18):47-51. 被引量：5
7雷斌,王菀莹,赵佳欣.货位分配优化研究综述[J].计算机工程与应用,2021,57(1):48-55. 被引量：10
8刘子豪,赵津,刘畅,赖坤城,王玺乔.基于改进A*算法室内移动机器人路径规划[J].计算机工程与应用,2021,57(2):186-190. 被引量：46
9阮毅.探析自动化立体仓库在港口备件管理中的应用[J].中国储运,2020(12):119-121. 被引量：1
10周伟枭,蓝雯飞,许智明,朱容波.SFExt-PGAbs:两阶段长文档摘要模型[J].计算机科学与探索,2021,15(5):907-921.

1China en el cine occidental,¿actor secundario o protagonista?[J].今日中国（西文版）,2016(5):52-54.
2杨志鹏,李波,甘志刚,梁诗阳.基于深度强化学习的四旋翼无人机航线跟随[J].指挥与控制学报,2022,8(4):477-482. 被引量：2
3张宇鑫,武建华,郑林锋,叶涛.基于数字孪生的锂离子电池管理系统设计分析[J].电气工程学报,2022,17(4):103-112. 被引量：4
4张浣星,王肖锋,武刚.应用于水下生物识别的联合范数主成分分析算法[J].光电子．激光,2022,33(10):1067-1074. 被引量：2
5张双.注重交互反馈,助推学生自学能力提升——《汉字的编码》交互式课件制作[J].中国信息技术教育,2023(3):81-84.
6李岱东,金桂根,余荣洋,王国莉,黎建强,王佳.基于多Agent的四向穿梭车调度优化技术与应用[J].物流技术与应用,2022,27(11):126-130.
7齐峻,武星.基于联合算法的连续体结构拓扑优化新方法[J].南方农机,2023,54(3):141-144.
8韦子豪,王端,林辉,肖丽丽,王东东.压水堆换料优化中Bagging-NN-ACO联合算法应用研究[J].核科学与技术,2023,11(1):86-101.
9全兴科,李敏,石义民.堆垛机立体库在航天军工项目的设计与应用[J].物流技术与应用,2022,27(11):120-125. 被引量：2
10杨航,董亮,何乐生.基于Simple Thresholding和CUSUM联合算法的L波段太阳射电流量可观测频段分析[J].天文研究与技术,2023,20(1):31-40.

计算机工程

2023年第2期

浏览历史

内容加载中请稍等...

基于多任务强化学习的堆垛机调度与库位推荐

参考文献6

二级参考文献38

共引文献118

相关作者

相关机构

相关主题

浏览历史