基于深度强化学习的多自动导引车运动规划被引量：1

Multi-AGV motion planning based on deep reinforcement learning

下载PDF

导出

摘要为解决移动机器人仓储系统中的多自动导引车(AGV)无冲突运动规划问题,建立了Markov决策过程模型,提出一种新的基于深度Q网络(DQN)的求解方法。将AGV的位置作为输入信息,利用DQN估计该状态下采取每个动作所能获得的最大期望累计奖励,并采用经典的深度Q学习算法进行训练。算例计算结果表明,该方法可以有效克服AGV车队在运动中的碰撞问题,使AGV车队能够在无冲突的情况下完成货架搬运任务。与已有启发式算法相比,该方法求得的AGV运动规划方案所需要的平均最大完工时间更短。 To solve the problem of multi-Automated Guided Vehicle(AGV)conflict-free motion planning in mobile robot fulfillment systems,a Markov Decision Process(MDP)model was constructed,then a novel planning approach based on Deep Q-Network(DQN)was proposed.With AGVs'positions as inputs,the DQN was trained by using classical deep Q-learning algorithm and was used to estimate the maximum expected cumulative reward received from taking each action.Computational results of problem instances showed that the proposed approach could effectively overcome the potential collisions of AGV fleet in motion,and thus enabled the AGV fleet to accomplish all rack transportation tasks with conflict-free.Furthermore,compared to an existing planning heuristic in the literature,the motion plans of AGVs generated from the proposed approach requid shorter average makespans.

作者孙辉袁维 SUN Hui;YUAN Wei(School of Mechanical Engineering,Southeast University,Nanjing 211189,China)

机构地区东南大学机械工程学院

出处《计算机集成制造系统》 EI CSCD 北大核心 2024年第2期708-716,共9页 Computer Integrated Manufacturing Systems

基金 2016年智能制造综合标准化资助项目(工信部联装[2016]213号)。

关键词多自动导引车运动规划 MARKOV决策过程深度Q网络深度Q学习 multi-automated guided vehicle motion planning Markov decision process deep Q-network deep Q-learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1张丹露,孙小勇,傅顺,郑彬.智能仓库中的多机器人协同路径规划方法[J].计算机集成制造系统,2018,24(2):410-418. 被引量：50
2曹小华,朱孟.基于冲突预测的多自动导引小车避碰决策优化[J].计算机集成制造系统,2020,26(8):2092-2098. 被引量：13
3余娜娜,李铁克,王柏琳,袁帅鹏.自动化分拣仓库中多AGV调度与路径规划算法[J].计算机集成制造系统,2020,26(1):171-180. 被引量：46
4张硕,钱晓明,楼佩煌,武星,孙超.基于改进粒子群算法的大规模自动导引车系统路径规划优化[J].计算机集成制造系统,2020,26(9):2484-2496. 被引量：20
5徐翔斌,马中强.RMFS订单拣选系统动态货位再指派研究[J].计算机集成制造系统,2021,27(4):1146-1154. 被引量：6

二级参考文献28

1刘波,王凌,金以慧.差分进化算法研究进展[J].控制与决策,2007,22(7):721-729. 被引量：289
2贺丽娜,楼佩煌,钱晓明,刘冉.基于时间窗的自动导引车无碰撞路径规划[J].计算机集成制造系统,2010,16(12):2630-2634. 被引量：44
3李英德,鲁建厦,潘国强.穿越策略下考虑相关性的货位优化方法[J].浙江大学学报（工学版）,2012,46(8):1424-1430. 被引量：13
4李英德.波次分区拣货时装箱与货位指派问题协同优化的模型与算法[J].系统工程理论与实践,2013,33(5):1269-1276. 被引量：14
5李建斌,杨光耀,陈峰.零售业电子商务仓储中心货位指派问题研究[J].工业工程与管理,2013,18(4):102-108. 被引量：11
6周炳海,周琪,王腾.基于滚动时域的整体式自动物料搬运系统避碰调度方法[J].计算机集成制造系统,2014,20(7):1691-1699. 被引量：8
7肖海宁,楼佩煌.自动导引车系统避碰及环路死锁控制方法[J].计算机集成制造系统,2015,21(5):1244-1252. 被引量：16
8汤旻安,谷宝慧.改进PSO在AGV系统路径优化调度中的应用研究[J].计算机工程与应用,2016,52(3):261-265. 被引量：7
9张益,冯毅萍,荣冈.智慧工厂的参考模型与关键技术[J].计算机集成制造系统,2016,22(1):1-12. 被引量：83
10李斌.面向PID控制和仿真优化的集装箱码头作业调度[J].计算机集成制造系统,2016,22(3):833-845. 被引量：6

共引文献115

1Г.М.戈尔什科列波夫,С.Н.茹林,Б.А.福林,В.Н.叶利尼科夫,Д.М.济卡耶夫,邹霞,木青.库尔斯克某矿地下资源和巷道的综合利用前景[J].国外金属矿山,2000,25(2):37-39. 被引量：1
2范媛,李文锋,贺利军.基于改进遗传算法的智能仓储多移动机器人协同调度[J].武汉理工大学学报（信息与管理工程版）,2019,41(3):293-298. 被引量：25
3余娜娜,李铁克,王柏琳,袁帅鹏.自动化分拣仓库中多AGV调度与路径规划算法[J].计算机集成制造系统,2020,26(1):171-180. 被引量：46
4孙阳君,赵宁.多机器人存取系统中的机器人群无冲突调度方法[J].工业工程,2020,23(2):49-58. 被引量：2
5闫华,黎丽荣,万飞,刘波,李睿.基于排队论的智能仓库机器人数量需求分析[J].兵器装备工程学报,2020,41(3):102-105. 被引量：5
6万逸飞,彭力.基于协同多目标算法的多机器人路径规划[J].信息与控制,2020,49(2):139-146. 被引量：22
7李金钊,张世宣,周小铃,郑潇玥,胡宗政,张勇.智能仓储机器人动态路径规划研究[J].软件工程,2020,23(7):30-32. 被引量：1
8琚泽立,杨博,孙浩飞,黄小羽,蒲路,赵学风,辛建斌.面向电力智能巡检的多机器人系统协同路径规划算法[J].智慧电力,2020,48(6):92-97. 被引量：31
9辜勇,段晶晶,苏宇霞,袁源乙.基于改进蚁群算法的仓储物流机器人路径规划[J].武汉理工大学学报（交通科学与工程版）,2020,44(4):688-693. 被引量：12
10Yang Yang,Li Juntao,Peng Lingling.Multi-robot path planning based on a deep reinforcement learning DQN algorithm[J].CAAI Transactions on Intelligence Technology,2020,5(3):177-183. 被引量：25

同被引文献4

1李程,江志斌,李友,李娜,耿娜,姚世清,贾文友.基于规则的批处理设备调度方法在半导体晶圆制造系统中应用[J].上海交通大学学报,2013,47(2):230-235. 被引量：6
2吴立辉,宋昊举,张中伟,武照云.面向紧急订单的晶圆制造AMHS多目标调度方法[J].组合机床与自动化加工技术,2020(1):155-159. 被引量：2
3李明辉,徐方,宋吉来.整体式自动化物料运输系统防拥堵调度策略[J].计算机工程与设计,2021,42(8):2395-2400. 被引量：3
4闫皎洁,张锲石,胡希平.基于强化学习的路径规划技术综述[J].计算机工程,2021,47(10):16-25. 被引量：39

引证文献1

1吴立辉,李元生,周秀,张中伟.基于强化学习的整体式AMHS防堵塞路径规划方法[J].工业工程与管理,2023,28(6):119-130.

1石月楼,杨旦杰,冯宇,李永强.非完全信息下协作式入侵检测系统检测库配置研究[J].高技术通讯,2024,34(2):162-172.
2朱美潘,杨健晖,李欣格,杜鑫,周纯杰.云环境下工业信息物理系统现场层安全策略决策方法[J].控制与决策,2024,39(1):281-290.
3王旭,蔡远利,张学成,张荣良,韩成龙.基于分层强化学习的低过载比拦截制导律[J].空天防御,2024,7(1):40-47.

计算机集成制造系统

2024年第2期

浏览历史

内容加载中请稍等...

基于深度强化学习的多自动导引车运动规划被引量：1

参考文献5

二级参考文献28

共引文献115

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的多自动导引车运动规划 被引量：1

参考文献5

二级参考文献28

共引文献115

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的多自动导引车运动规划被引量：1