基于启发式强化学习的AGV路径规划被引量：8

AGV Path Planning Based on Heuristic Reinforcement Learning

下载PDF

导出

摘要针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势. Aiming at problems of slow convergence speed and low learning efficiency of traditional algorithm,intelligent algorithm and reinforcement learning algorithm in automated guided vehicle(AGV)path planning,a heuristic reinforcement learning algorithm was proposed.For the traditional Q(λ)algorithm,the heuristic reward function and heuristic action selection strategy were designed to strengthen the agent’s exploration of high-quality behaviors and improve the learning efficiency of the algorithm.Through the simulation and contrast experiments,the improved Q(λ)heuristic reinforcement learning algorithm has advantages in exploring times,planning time,path length and path corner.

作者唐恒亮唐滋芳董晨刚尹棋正海秋茹 TANG Hengliang;TANG Zifang;DONG Chengang;YIN Qizheng;HAI Qiuru(School of Information,Beijing Wuzi University,Beijing 101149,China)

机构地区北京物资学院信息学院

出处《北京工业大学学报》 CAS CSCD 北大核心 2021年第8期895-903,共9页 Journal of Beijing University of Technology

基金教育部人文社科基金资助项目(20YJCZH200) 北京市教育委员会科技计划资助项目(KM202110037002) 北京市“高创计划”青年拔尖人才资助项目(2017000026833ZK25) 北京市通州区运河计划领军人才资助项目(YHLB2017038)

关键词自动引导小车(automated guided vehicle AGV) 强化学习 Q(λ)算法启发式奖励函数启发式动作选择策略路径规划 automated guided vehicle(AGV) reinforcement learning Q(λ)algorithm heuristic reward function heuristic action selection strategy path planning

分类号 U461 [机械工程—车辆工程] TP308 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1赵晓,王铮,黄程侃,赵燕伟.基于改进A*算法的移动机器人路径规划[J].机器人,2018,40(6):903-910. 被引量：217
2贺丽娜,楼佩煌,钱晓明,刘冉.基于时间窗的自动导引车无碰撞路径规划[J].计算机集成制造系统,2010,16(12):2630-2634. 被引量：44
3巩敦卫,曾现峰,张勇.基于改进模拟退火算法的机器人全局路径规划[J].系统仿真学报,2013,25(3):480-483. 被引量：25
4王功亮,王好臣,李振雨,李家鹏.基于优化遗传算法的移动机器人路径规划[J].机床与液压,2019,47(3):37-40. 被引量：33
5杨洋,张建敏,刘艺林,宋馨.基于改进蚁群算法的无人仓的多AGV避碰路径优化策略[J].数学的实践与认识,2020,50(16):1-9. 被引量：8
6Guangsheng LI,Wusheng CHOU.Path planning for mobile robot using self-adaptive learning particle swarm optimization[J].Science China(Information Sciences),2018,61(5):263-280. 被引量：48
7于乃功,王琛,默凡凡,蔡建羡.基于Q学习算法和遗传算法的动态环境路径规划[J].北京工业大学学报,2017,43(7):1009-1016. 被引量：17
8张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：43
9徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：41
10卫玉梁,靳伍银.基于神经网络Q-learning算法的智能车路径规划[J].火力与指挥控制,2019,44(2):46-49. 被引量：16

二级参考文献68

1乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
2张捍东,郑睿,岑豫皖.移动机器人路径规划技术的现状与展望[J].系统仿真学报,2005,17(2):439-443. 被引量：119
3刘国栋,曲道奎,张雷.多AGV调度系统中的两阶段动态路径规划[J].机器人,2005,27(3):210-214. 被引量：42
4孙波,陈卫东,席裕庚.基于粒子群优化算法的移动机器人全局路径规划[J].控制与决策,2005,20(9):1052-1055. 被引量：77
5刘华军,杨静宇,陆建峰,唐振民,赵春霞,成伟明.移动机器人运动规划研究综述[J].中国工程科学,2006,8(1):85-94. 被引量：74
6毕盛,朱金辉,闵华清,钟汉如.基于模糊逻辑的机器人路径规划[J].机电产品开发与创新,2006,19(1):21-22. 被引量：7
7王丽芳,曾建潮.基于微粒群算法与模拟退火算法的协同进化方法[J].自动化学报,2006,32(4):630-635. 被引量：33
8申晓宁,郭毓,陈庆伟,胡维礼.多目标遗传算法在机器人路径规划中的应用[J].南京理工大学学报,2006,30(6):659-663. 被引量：19
9QIU Ling.HSU Wenjing.Scheduling and routing algorithms for AGVS:a survey[J].International Journal of Production Research,2002,40(3):745-760.
10KIM C W,TANCHOCO J M A.Conflict-free shortest time Bi-directional AGV routing[J].International Journal of Production Research,1991,29(12):2377-2391.

共引文献464

1迟旭,李花,费继友.基于改进A^(*)算法与动态窗口法融合的机器人随机避障方法研究[J].仪器仪表学报,2021,42(3):132-140. 被引量：62
2林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：38
3徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：9
4金翔,王天霖,于鹏垚,赵勇.基于值迭代网络的路径规划算法[J].华中科技大学学报（自然科学版）,2020,48(2):91-96. 被引量：1
5谢高杨,房立清,苏续军,李亚男.无人靶车在不同车速下的路径规划方法[J].电子测量与仪器学报,2023,37(2):39-47. 被引量：1
6张凡,蔡涛,刘文达,范亚雷.基于改进JPS算法的电站巡检机器人路径规划[J].电子测量技术,2020,43(8):10-16. 被引量：6
7高双,柳春平,张瞳,陈坤.可行状态包络下欠驱动水面船全时可跟踪轨迹规划方法[J].船舶工程,2022,44(S01):459-466.
8许建波,宋豫川,封声飞.基于动态加权A^(*)算法的AGV路径规划研究[J].中国科技论文在线精品论文,2020(2):115-126. 被引量：1
9喻俊,楼佩煌,钱晓明,武星.自动导引车视觉导引路径的识别及精确测量[J].华南理工大学学报（自然科学版）,2012,40(3):143-149. 被引量：15
10王昆生.金融衍生工具及其监管[J].现代企业导刊,2000(4):48-49.

同被引文献101

1蔺一帅,李青山,陆鹏浩,孙雨楠,王亮,王颖芝.智能仓储货位规划与AGV路径规划协同优化算法[J].软件学报,2020,31(9):2770-2784. 被引量：22
2李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：13
3陈靖波,赵猛,张珩.空间机械臂在线实时避障路径规划研究[J].控制工程,2007,14(4):445-447. 被引量：24
4曲良东,何登旭.新的混合优化算法及其应用[J].计算机工程与应用,2009,45(15):51-53. 被引量：3
5杨明远,孙汉旭,贾庆轩,陈钢.七自由度空间机械臂避障路径规划方法[J].航天器工程,2011,20(4):65-71. 被引量：15
6杜明博,梅涛,陈佳佳,赵盼,梁华为,黄如林,陶翔.复杂环境下基于RRT的智能车辆运动规划算法[J].机器人,2015,37(4):443-450. 被引量：91
7田欣,刘广瑞,周文博,郭珂甫.基于改进自适应遗传算法的机器人路径规划研究[J].机床与液压,2016,44(17):24-28. 被引量：10
8丁恒,郭放,蒋程镔,张雨,张卫华.多个MFD子区边界协调控制方法[J].自动化学报,2017,43(4):548-559. 被引量：12
9刘思嘉,黄晓舸,朱帆,陈前斌.LTE-U与WiFi在非授权频段的共存方案研究[J].重庆邮电大学学报（自然科学版）,2017,29(2):182-189. 被引量：6
10李龙澍,喻环.改进蚁群算法在复杂环境中机器人路径规划上的应用[J].小型微型计算机系统,2017,38(9):2067-2071. 被引量：22

引证文献8

1苗振腾,王威,王俊鹏.基于神经网络改进的HHO算法AGV路径规划[J].组合机床与自动化加工技术,2022(9):20-23. 被引量：7
2颜伟,孙佳旭,崔若梁.仓库拣选路径问题研究综述[J].科学技术与工程,2022,22(32):14081-14089.
3王朋雨,米根锁,王彦快.基于HQL(λ)的城市轨道交通车地通信资源分配研究[J].铁道标准设计,2023,67(1):175-181.
4李逸飞,王书亭,熊体凡,谢远龙,李虎.兼顾启停特性和转角时耗的移动机器人路径规划[J].西安交通大学学报,2023,57(2):192-202. 被引量：5
5房殿军,周彬彬,赵春苗,ROLF Schmidt.离散制造系统环境下基于深度Q学习的AGV路径规划[J].物流技术,2023,42(6):45-51.
6黄建兵,梁鹏升,黄鑫,尹君,符伟杰.限定空间施工场景下泵车的臂架运动轨迹规划技术研究[J].中国工程机械学报,2023,21(4):288-292.
7蒋柳鹏,戴南亭.基于(1+1)进化策略的港口AGV路径规划改进进化算法[J].中国港湾建设,2023,43(10):99-104.
8郝晨旭,李骏敏,甘兴利,李香凝.基于自适应控制采样的RRT^(*)足路径规划算法研究[J].计算机与网络,2023,49(23):57-61.

二级引证文献12

1沙飞斐.轮式沥青摊铺机施工路径规划方法[J].建筑机械,2023(3):60-64.
2周伟,胡毅,刘进江,刘泓铄,童一飞,陈坚豪.基于Dijkstra算法的AMR集群协同调度研究[J].制造技术与机床,2023(6):175-179.
3刘宝林,吴恒,陈沛东.AGV系统在玻纤包装线的应用研究[J].机电产品开发与创新,2023,36(3):114-117.
4罗子灿,何广,宾厚,郑湘明.基于改进蚁群算法的机器人路径规划仿真实验[J].曲靖师范学院学报,2023,42(3):39-44.
5曾宁坤,胡朋,梁竹关,丁洪伟,杨志军.基于深度强化学习哈里斯鹰算法的路径规划[J].电子测量技术,2023,46(12):69-76.
6张延年,吴昊,张云.兼顾路径长度和充电站位置的移动机器人路径规划[J].组合机床与自动化加工技术,2023(10):69-72.
7冯仁宇,夏凯.多重约束下智慧仓储搬运机器人移动路径选择研究[J].现代电子技术,2023,46(22):1-4.
8张晓倩,黄磊,石雨婷,汪建华,祁良剑.基于多目标优化的改进蚁群路径规划算法[J].现代制造工程,2023(11):40-46. 被引量：1
9王冠强,张驰洲,陈明松,蔺永诚,邹奋扬,王秋,吴敏杰,曾维栋.融合RRT-Connect和DWA算法的室内移动机器人单目标点导航任务研究[J].中南大学学报（自然科学版）,2023,54(11):4326-4337. 被引量：1
10邓毅,廖秋丽.基于改进瞪羚优化算法的机器人路径规划[J].机械设计与制造工程,2024,53(1):51-54.

1陈鑫,兰凤崇,陈吉清.基于改进深度强化学习的自动泊车路径规划[J].重庆理工大学学报（自然科学）,2021,35(7):17-27. 被引量：10
2樊雯,陈腾,菅迎宾.异构网络中用户关联和功率控制的协同优化[J].电讯技术,2021,61(7):893-900. 被引量：2
3魏晓晗,张庆,蒋婷婷,梁霖.伺服系统瞬态优化的模糊自适应深度强化学习方法[J].西安交通大学学报,2021,55(8):68-77. 被引量：3

北京工业大学学报

2021年第8期

浏览历史

内容加载中请稍等...

基于启发式强化学习的AGV路径规划被引量：8

参考文献11

二级参考文献68

共引文献464

同被引文献101

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于启发式强化学习的AGV路径规划 被引量：8

参考文献11

二级参考文献68

共引文献464

同被引文献101

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于启发式强化学习的AGV路径规划被引量：8