一种基于策略迁移和强化学习的AMR路径规划方法

AMR Path Planning Method Based on Strategy Transfer and Reinforcement

下载PDF

导出

摘要自主移动机器人(autonomous mobile robot,AMR)路径规划是货物搬运、仓储物流等领域的一项关键技术。当工厂内的工作环境发生变化时,AMR单纯使用强化学习算法重新学习最优路径的速度慢。针对此问题,在Q学习算法的基础上提出了一种策略迁移强化学习算法。该算法使用源任务保存的相邻状态转移和目标任务保存的相邻状态转移计算相似度。根据相似度的大小和权重选择性地迁移源任务的策略,并以一定概率进行随机探索和使用目标任务新学习的策略。所提算法的有效性在AMR合作搬运任务中得到了验证。与其他方法相比,该算法的启动能力更强,收敛速度更快。 Path planning of autonomous mobile robot(AMR)is a key technology in the fields of cargo handling,warehousing and logistics.When the working environment in the factory changes,AMR is slow to relearn the optimal path using reinforcement learning algorithms alone.To sovle this problem,a strategy transfer-reinforcement learning algorithm based on Q learning algorithm is proposed.The algorithm uses the adjacent state transitions saved by the source task and the adjacent state transitions saved by the target task to calculate the similarity.According to the size of similarity and weight,the source task strategy is selectively transferred,and the target task is randomly explored and the new learning strategy is used with a certain probability.The effectiveness of the proposed algorithm is validated in the AMR cooperative handling task.Compared with other methods,the proposed algorithm has superior startup ability and convergence speed.

作者刘明阳张震宋婷婷周维庆 LIU Mingyang;ZHANG Zhen;SONG Tingting;ZHOU Weiqing(School of Automation,Qingdao University,Qingdao 266071,China;Shandong Key Laboratory of Industrial Control Technology,Qingdao 266071,China;Vehicle Maintenance Department,Third Operation Center of Qingdao Metro Operation Co.,Ltd.,Qingdao 266071,China)

机构地区青岛大学自动化学院山东省工业控制技术重点实验室青岛地铁运营有限公司运营三中心车辆维保部

出处《控制工程》 CSCD 北大核心 2024年第7期1195-1202,共8页 Control Engineering of China

基金国家自然科学基金资助项目(61903209)。

关键词迁移学习强化学习状态转移策略迁移相似度 Transfer learning reinforcement learning state transition strategy transfer similarity

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1刘翰培,王东署,汪宇轩,罗小川.移动机器人路径规划的模糊人工势场法研究[J].控制工程,2022,29(1):33-38. 被引量：24
2杨俊成,李淑霞,蔡增玉.路径规划算法的研究与发展[J].控制工程,2017,24(7):1473-1480. 被引量：66
3余伶俐,邵玄雅,龙子威,魏亚东,周开军.智能车辆深度强化学习的模型迁移轨迹规划方法[J].控制理论与应用,2019,36(9):1409-1422. 被引量：25
4王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
5谢岩松,金海东,陈冬火.基于函数近似的知识迁移[J].软件,2016,37(2):134-138. 被引量：2
6徐平安,刘全.基于相似度约束的双策略蒸馏深度强化学习方法[J].计算机科学,2023,50(1):253-261. 被引量：1

二级参考文献73

1卢茜,莫亭亭.基于模拟退火禁忌遗传算法的并行测试任务调度[J].微电子学与计算机,2015,32(3):146-150. 被引量：7
2李伟.在未知环境中基于模糊逻辑的移动机器人行为控制[J].控制理论与应用,1996,13(2):153-162. 被引量：16
3王俭,赵鹤鸣,陈卫东.移动机器人全覆盖路径规划研究[J].微计算机信息,2006(03Z):194-197. 被引量：18
4陈立彬,尤波.基于改进人工势场法的机器人动态追踪与避障[J].自动化技术与应用,2007,26(4):8-10. 被引量：15
5Anderson J R. Cognitive Psychology and Its Applications(third edition) [M]. New York: Freeman, 1990.
6Sutton R S, Barto A G. Reinforcement Learning [M]. Cambridge. MIT Press, 1998.
7Bowling M, Veloso M. Reusing learned policies between similar problems[A]. Proceedings of AI* IA-98 Workshop on New Trends in Robotics [C]. Berlin, Germany: Springer Verlag. 1998.
8Femandez F, Veloso M. Probabilistic policy reuse in a reinforcement learning agent[A]. Proceedings of the Fifth International Conference on Autonomous Agents and Multi-Agent Systems[C]. New York: ACM, 2006.
9Femandez F, Veloso M. Policy reuse for transfer learning across tasks with different state and action spaces[A]. Proceedings of The ICML-06 Workshop on Structural Knowledge Transfer for Machine Learning[ C]. New York: ACM, 2006.
10Bemstein D S. Reusing old policies to accelerate learning on new MDPs[ R]. Amherst: Amherst College, University of Massachusetts, 1999.

共引文献139

1李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
2韩道军,夏兰亭,卓汉逵,李磊.基于强化学习的业务流程中的柔性约束研究[J].计算机科学,2011,38(3):166-171. 被引量：2
3王雪松,潘杰,程玉虎.基于知识迁移的Ant-Q算法[J].电子学报,2011,39(10):2359-2365. 被引量：4
4吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
5朱美强,程玉虎,李明,王雪松,冯涣婷.一类基于谱方法的强化学习混合迁移算法[J].自动化学报,2012,38(11):1765-1776. 被引量：10
6李冠峰,贺学剑,韩道军.强化学习在中职招生系统中的应用[J].计算机应用与软件,2013,30(4):252-254.
7唐焕玲,于立萍,鲁明羽.融合迁移学习的TranCo-Training分类模型[J].模式识别与人工智能,2013,26(5):432-439. 被引量：1
8CHENG Yuhu CAO Ge WANG Xuesong PAN Jie.Weighted Multi-source TrAdaBoost[J].Chinese Journal of Electronics,2013,22(3):505-510. 被引量：5
9陈兴国,高阳,范顺国,俞亚君.基于核方法的连续动作Actor-Critic学习[J].模式识别与人工智能,2014,27(2):103-110. 被引量：8
10张倩,李明,王雪松,程玉虎,朱美强.一种面向多源领域的实例迁移学习[J].自动化学报,2014,40(6):1176-1183. 被引量：24

1李旺,陶洋.Mask Boundary R-CNN实例分割边界精度算法[J].小型微型计算机系统,2024,45(7):1702-1709.
2施元平.电动机单相运行的原因及预防[J].新潮电子,2024(7):82-84.
3崔浩岩,张震,赵德京,廖登宇.一种基于一致性的多智能体Q学习算法[J].控制工程,2024,31(7):1169-1177.
4杨文军,张继红.戏剧仪式奇观及权力场域下“看”的三重维度——重读莫言小说《檀香刑》[J].宁夏大学学报（社会科学版）,2024,46(3):79-88.
5倪剑,范帆,李丹阳.以高质量审计赋能国有企业高质量发展的思考[J].现代国企研究,2024(7):61-65.
6孙晓鹤.话语祛魅:崛起国的国际话语权难题——基于“修昔底德陷阱”的话语分析[J].江南社会学院学报,2024,26(1):45-51.
7周权,牛英滔.基于相似性样本生成的深度强化学习快速抗干扰算法[J].通信学报,2024,45(7):117-126.
8刘雪莲,张觉文.东北亚国家关系的矛盾性与中国的战略选择——基于全球化与地缘政治交织的视角[J].吉林大学社会科学学报,2024,64(4):87-98.
9张可心.重构文学的理论位置——以乔纳森·卡勒《理论中的文学》为中心[J].文化与诗学,2023(1):266-280.

控制工程

2024年第7期

浏览历史

内容加载中请稍等...

一种基于策略迁移和强化学习的AMR路径规划方法

参考文献6

二级参考文献73

共引文献139

相关作者

相关机构

相关主题

浏览历史