基于多智能体深度强化学习的机器人协作搬运方法

The robot cooperative handling method based on multi-agent deep reinforcement learning

下载PDF

导出

摘要近年来,机器人协作搬运任务在生产线和无人仓库场景中得到广泛应用。针对在传统路径规划方法上机器人无法达到最高的搬运效率的问题,提出一种通过基于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的QTRAN Plus算法参与协作搬运的机器人规划路径。QTRAN Plus算法采用混合网络代替QTRAN算法中对每个智能体的Q值网络进行加和的操作,以提高优化能力,并增加了一个新的损失函数,以提高收敛速度。通过协作搬运仿真实验可知,QTRAN Plus能够更快更稳定地学习到机器人的最优路径,其整体表现优于其他对比算法。 In recent years,the cooperative robot handling tasks have been widely used in production lines and unmanned warehouse scenarios.The robots may not achieve the highest efficiency with the traditional path planning method.To this end,the QTRAN Plus algorithm based on Multi-Agent Deep Reinforcement Learning is proposed in this paper to plan the path of the robot involved in cooperative handling.The QTRAN Plus algorithm uses hybrid network instead of QTRAN algorithm to add the Q-value network of each agent to improve the optimization ability,and adds a new loss function to improve the convergence speed.The simulation results show that QTRAN Plus can learn the optimal path of the robot faster and stably,and its overall performance is better than other comparison algorithms.

作者廖登宇张震赵德京崔浩岩 LIAO Dengyu;ZHANG Zhen;ZHAO Dejing;CUI Haoyan(College of Automation,Qingdao University,Qingdao 266071,China;Shandong Provincial Key Laboratory of Industrial Control,Qingdao 266071,China)

机构地区青岛大学自动化学院山东省工业控制重点实验室

出处《电子设计工程》 2023年第23期7-11,共5页 Electronic Design Engineering

基金国家自然科学基金项目(61903209)。

关键词多智能体深度强化学习强化学习随机博弈路径规划 multi-agent deep reinforcement learning reinforcement learning stochastic game path planning

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1苏子康,陈嘉,邢卓琳.多无人直升机协作搬运控制技术研究[J].无人系统技术,2022,5(2):33-42. 被引量：1
2汤自林,高霄,肖晓晖.基于模仿学习的变刚度人机协作搬运控制[J].浙江大学学报（工学版）,2021,55(11):2091-2099. 被引量：6
3李子涵,孙建红,王永利.基于A^(*)算法的电子游戏路径优化处理[J].电子设计工程,2021,29(13):1-5. 被引量：4
4孙波,姜平,周根荣,董殿永.基于改进遗传算法的AGV路径规划[J].计算机工程与设计,2020,41(2):550-556. 被引量：55
5罗洁,王中训,潘康路,卢中原,刘言.基于改进人工势场法的无人车路径规划算法[J].电子设计工程,2022,30(17):90-94. 被引量：14
6牛鹏飞,王晓峰,芦磊,张九龙.强化学习在车辆路径问题中的研究综述[J].计算机工程与应用,2022,58(1):41-55. 被引量：10
7袁唯淋,罗俊仁,陆丽娜,陈佳星,张万鹏,陈璟.智能博弈对抗方法:博弈论与强化学习综合视角对比分析[J].计算机科学,2022,49(8):191-204. 被引量：13
8吕帅,龚晓宇,张正昊,韩帅,张峻伟.结合进化算法的深度强化学习方法研究综述[J].计算机学报,2022,45(7):1478-1499. 被引量：12
9杨峻楠,张红旗,张传富.基于随机博弈与改进WoLF-PHC的网络防御决策方法[J].计算机研究与发展,2019,56(5):942-954. 被引量：11
10马文,李辉,王壮,黄志勇,吴昭欣,陈希亮.基于深度随机博弈的近距空战机动决策[J].系统工程与电子技术,2021,43(2):443-451. 被引量：22

二级参考文献89

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：22
2王德荣,桑雨生.直升机外挂飞行中的飘摆问题[J].飞行力学,1996,14(4):78-83. 被引量：2
3葛继科,邱玉辉,吴春明,蒲国林.遗传算法研究综述[J].计算机应用研究,2008,25(10):2911-2916. 被引量：421
4孔媛,唐加福,董纲,张军.插入算法求接送顾客到机场的车辆调度问题[J].控制理论与应用,2009,26(1):92-96. 被引量：3
5公茂果,焦李成,杨咚咚,马文萍.进化多目标优化算法研究[J].软件学报,2009,20(2):271-289. 被引量：401
6姜伟,方滨兴,田志宏,张宏莉.基于攻防随机博弈模型的防御策略选取研究[J].计算机研究与发展,2010,47(10):1714-1723. 被引量：74
7樊会涛.第五代空空导弹的特点及关键技术[J].航空科学技术,2011(3):1-5. 被引量：41
8刘玉岭,冯登国,吴丽辉,连一峰.基于静态贝叶斯博弈的蠕虫攻防策略绩效评估[J].软件学报,2012,23(3):712-723. 被引量：34
9何兵,刘刚,闫建峥,黄宁.基于Voronoi图和量子遗传算法的飞行器航迹规划方法[J].电光与控制,2013,20(1):5-8. 被引量：13
10王树西,李安渝.Dijkstra算法中的多邻接点与多条最短路径问题[J].计算机科学,2014,41(6):217-224. 被引量：123

共引文献175

1张军,许靖宜,于士坤.基于人工势场法的局部路径规划改进[J].绥化学院学报,2023,43(9):146-151.
2陈学雷.基于改进遗传算法的矿井风网特征图优化研究[J].工矿自动化,2023,49(S02):71-74.
3何世鹏,金世俊.结合蚁群算法和萤火虫算法的无人船路径规划[J].电子测量技术,2023,46(19):82-86. 被引量：2
4孙骞,薛雷琦,高岭,王海,王宇翔.基于随机博弈与禁忌搜索的网络防御策略选取[J].计算机研究与发展,2020,57(4):767-777. 被引量：5
5郭洪月,王元新,孙晨曦.自动泊车系统中AGV路径规划及碰撞规避问题分析[J].装备制造技术,2020(4):258-261. 被引量：5
6曹雷,孙咏,焦艳菲,王嵩,李冬梅.基于Apriori算法的立体仓库系统[J].计算机系统应用,2020,29(9):115-120. 被引量：2
7刘小虎,张恒巍,张玉臣,马壮,吕文雷.基于博弈模型与NetLogo仿真的网络攻防态势研究[J].系统仿真学报,2020,32(10):1918-1926. 被引量：7
8戈萧,郑慧.基于插值参考点的多目标路径规划方法研究[J].浙江科技学院学报,2020,32(6):541-548.
9王迪,李彩虹,郭娜,高腾腾,刘国名.改进人工势场法的移动机器人局部路径规划[J].山东理工大学学报（自然科学版）,2021,35(3):1-6. 被引量：15
10张博晖,武照云,程洋洋,代争争,高梦媛.柔性制造车间多载具AGV任务分组算法研究[J].科技创新与应用,2021(11):34-36. 被引量：2

1杨扬,高凡,徐新扬.融合发展下物流与制造业绿色技术创新的随机演化分析[J].生态经济,2023,39(9):75-84. 被引量：4
2赵芷若,曹雷,陈希亮,赖俊,章乐贵.基于多智能体博弈强化学习的无人机智能攻击策略生成模型[J].系统工程与电子技术,2023,45(10):3165-3171.
3李欢,卢延荣.随机博弈下的工业机器人物联网主动防御研究[J].无线电工程,2023,53(9):2135-2142. 被引量：1
4葛晓琳,曹旭丹,李佾玲.多虚拟电厂日前随机博弈与实时变时间尺度优化方法[J].电力自动化设备,2023,43(11):150-157. 被引量：6
5龚芮.基于建筑工程造价预结算审查视角的成本管理分析[J].大众标准化,2023(22):81-82. 被引量：2
6宋丹瑛.我国旅游管理专业硕士培养的进展、挑战与深化路径[J].高教学刊,2023,9(35):167-171.
7Sichen Li,Di Cao,Weihao Hu,Qi Huang,Zhe Chen,Frede Blaabjerg.Multi-energy Management of Interconnected Multi-microgrid System Using Multi-agent Deep Reinforcement Learning[J].Journal of Modern Power Systems and Clean Energy,2023,11(5):1606-1617. 被引量：1
8高甲博,肖玮,何智杰.P3C-MADDPG算法的多无人机协同追捕对抗策略研究[J].指挥控制与仿真,2023,45(6):7-18.
9Jiawei Xia,Yasong Luo,Zhikun Liu,Yalun Zhang,Haoran Shi,Zhong Liu.Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning[J].Defence Technology（防务技术）,2023,29(11):80-94.
10Riadh HARIZI.Intelligent Parking Management System by Multi-Agent Approach:The Case of Urban Area of Tunis[J].Journal of Traffic and Transportation Engineering,2023,11(4):145-158.

电子设计工程

2023年第23期

浏览历史

内容加载中请稍等...

基于多智能体深度强化学习的机器人协作搬运方法

参考文献14

二级参考文献89

共引文献175

相关作者

相关机构

相关主题

浏览历史