基于深度强化学习的机械臂控制快速训练方法被引量：5

Fast Training Method for Manipulator Control Based on Deep Reinforcement Learning

下载PDF

导出

摘要人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型(2D模型)再复杂模型(3D模型)的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。 Artificial Intelligence(AI)is widely used in robot control,and the algorithms of robot control are gradually shifting from model-driven to data-driven.Deep reinforcement learning can perceive and make decisions in complex environments and solve manipulator control problems in high-dimensional and continuous state spaces.The current datadriven training process in deep reinforcement learning relies heavily on GPU computing power and requires a significant amount of training time.To address this problem,this study proposes a fast training method for manipulator control based on deep reinforcement learning of simplified model(2D model)followed by complex model(3D model).A Deep Deterministic Policy Gradient(DDPG)algorithm is used to control the end of the manipulator to reach the target position directly through data-driven training instead of the traditional inverse kinematic solving method,thereby reducing the amount of training time.However,at different settings for the state vector and reward function forms,the final trained algorithm model is implemented and verified on a real manipulator.The results show that the control effect meets the application requirements of sorting items and is able to shorten the average training time by nearly 52%compared with that obtained by training directly in the 3D model.

作者赵寅甫冯正勇 ZHAO Yinfu;FENG Zhengyong(School of Electronic Information Engineering,China West Normal University,Nanchong,Sichan 637009,China)

机构地区西华师范大学电子信息工程学院

出处《计算机工程》 CAS CSCD 北大核心 2022年第8期113-120,共8页 Computer Engineering

基金西华师范大学英才基金(17YC046) 西华师范大学博士科研启动项目“异构无线网络流媒体传输QOE优化”(13E003)。

关键词机械臂位置控制人工智能深度强化学习深度确定性策略梯度算法 manipulator position control Artificial Intelligence(AI) deep reinforcement learning Deep Deterministic Policy Gradient(DDPG)algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1王子强,武继刚.基于RDC-Q学习算法的移动机器人路径规划[J].计算机工程,2014,40(6):211-214. 被引量：6
2魏娟,杨恢先,谢海霞.基于免疫RBF神经网络的逆运动学求解[J].计算机工程,2010,36(22):192-194. 被引量：5
3李鹤宇,赵志龙,顾蕾,郭丽琴,曾贲,林廷宇.基于深度强化学习的机械臂控制方法[J].系统仿真学报,2019,31(11):2452-2457. 被引量：12

二级参考文献20

1林金星,沈炯,李益国.基于免疫原理的径向基函数网络在线学习算法及其在热工过程大范围工况建模中的应用[J].中国电机工程学报,2006,26(9):14-19. 被引量：15
2盛党红,温秀兰,黄文良.基于免疫进化神经网络的机械手逆运动控制[J].中国机械工程,2007,18(3):282-285. 被引量：4
3Chen Chunlin, Yang Pei, Zhou Xianzhong. A Quantum Inspired Q-learning Algorithm for Indoor Robot Navigation[C]//Proc. of IEEE International Conference on Networking, Sensing and Control. [S. l.]: IEEE Press, 2008: 1599-1603.
4Niu Lianqiang, Li Ling. Application of Reinforcement Learn- ing in Autonomous Navigation for Virtual Vehicles[C]//Proc. of the 9th International Conference on Hybrid Intelligent Systems. [S. l.]: IEEE Press, 2009: 30-32.
5Adiprawita W, Ahmad A S, Sembiring J, et al. Simplified Q-learning for Holonomic Mobile Robot Navigation[C]//Proc. of the 2nd International Conference on Instrumentation, Communications, Information Technology, and Biomedical Engineering. [S. l.]: IEEE Press, 2011: 64-68.
6Gordon S W, Reyes N H, Barczak A. A Hybrid Fuzzy Q- learning Algorithm for Robot Navigation[C]//Proc. of International Joint Conference on Neural Networks. [S. l.]: IEEE Press, 2011: 2625-2631.
7Sepideh V, Reza G, Ataollah E. A Fuzzy Q-learning Approach to Navigation of an Autonomous Robot[C]//Proc. of the 16th International Symposium on Artificial Intelligence and Signal Processing. [S. l.]: IEEE Press, 2012: 520-525.
8Yang Guosheng, Chen Erkui, An Chengwan. Mobile Robot Navigation Using Neural Q-learning[C]//Proc. of International Conference on Machine Learning and Cybernetics. [S. l.]: IEEE Press, 2004: 48-52.
9Watkins C, Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279-292.
10Costa E D S, Gouvea M M. Autonomous Navigation in Dynamic Environments with Reinforcement Learning and Heuristic[C]//Proc. of the 9th International Conference on Machine Learning and Applications. Washington D. C., USA: [s. n.], 2010: 12-14.

共引文献20

1瞿师,吴玲达,魏迎梅,于荣欢,冯晓萌.基于FASGPLVM的人体运动生成[J].计算机工程,2011,37(22):255-256.
2曹莉,唐玲,吴浩,高祥,乐英高.基于免疫神经网络的数控机床故障诊断研究[J].机床与液压,2016,44(13):184-190. 被引量：4
3蔡建羡,阮晓钢,于乃功,柴洁,朱晓庆.基于认知发育的移动机器人自主导航[J].计算机工程,2018,44(1):9-16. 被引量：4
4周勇,冯志敏,刘小锋,周航,胡敏.基于改进型RBF神经网络的磁流变阻尼器动力学建模及仿真[J].船舶工程,2019,41(4):88-94. 被引量：3
5刘小锋,冯志敏,陈跃华,张刚,李宏伟.基于AP聚类RBF神经网络的改进算法及试验[J].传感技术学报,2018,31(3):408-414. 被引量：2
6周滔,赵津,胡秋霞,席阿行,刘东杰.复杂环境下移动机器人全局路径规划与跟踪[J].计算机工程,2018,44(12):208-214. 被引量：19
7卫玉梁,靳伍银.基于神经网络Q-learning算法的智能车路径规划[J].火力与指挥控制,2019,44(2):46-49. 被引量：17
8贺笑,李俊,侯言旭.基于深度Q网络的机器人抓取系统[J].工业控制计算机,2020,33(7):28-29.
9姬周珂,徐巧玉,王军委,李坤鹏.一种深度强化学习的机械臂控制方法[J].河南科技大学学报（自然科学版）,2021,42(3):19-24. 被引量：3
10贺道坤.基于Deep Q Networks的机械臂推动和抓握协同控制[J].现代制造工程,2021(7):23-28. 被引量：2

同被引文献35

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：39
2刘强,范英飚.基于最优控制的落角约束攻击设计[J].海军航空工程学院学报,2007,22(2):215-218. 被引量：9
3陈宗海,杨志华,王海波,盛捷.从知识的表达和运用综述强化学习研究[J].控制与决策,2008,23(9):961-968. 被引量：14
4杨春雷,唐胜景,师娇.Proportional Navigation Guidance Law with Variable Coefficient Gravity Compensation[J].Journal of Beijing Institute of Technology,2009,18(3):304-308. 被引量：4
5陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：60
6张春妍,宋建梅,侯博,张民强.带落角和时间约束的网络化导弹协同制导律[J].兵工学报,2016,37(3):431-438. 被引量：46
7郑斯斯,王爱虎.路径优化算法求解集装箱码头堆场翻箱问题[J].工业工程与管理,2017,22(3):31-40. 被引量：9
8赵曜,杨书波,莫锦鹤,韩英宏,刘向东.带碰撞角约束的最优多项式制导律[J].北京理工大学学报,2018,38(6):637-640. 被引量：3
9张文广,易文俊,管军,袁丹丹.基于连续2阶滑模的带碰撞角约束制导律设计[J].兵工学报,2018,39(12):2389-2398. 被引量：3
10李广创,程良伦.基于深度强化学习的机械臂避障路径规划研究[J].软件工程,2019,22(3):12-15. 被引量：8

引证文献5

1郑成辰,李辉,陶伟,刘思成,吴冯国,何立.基于深度强化学习的导弹末端约束角制导律[J].战术导弹技术,2022(6):93-102. 被引量：1
2蒋祝鹏,闫悦.一种无学习的二连杆机械臂定位控制策略[J].智能制造,2022(1):60-63.
3戢泽民,徐野,哈乐.面向强化学习的虚拟链路智能体仿真环境研究[J].科技资讯,2022,20(19):29-32.
4付子强,郑威强,张立萍,何丽,袁亮,邵明明.基于MRD-DDPG的机械臂避障路径规划方法[J].组合机床与自动化加工技术,2023(7):41-45.
5缪刘洋,朱其新,丁正凯,王旭.结合先验知识与深度强化学习的机械臂抓取研究[J].西安工程大学学报,2023,37(4):92-101. 被引量：1

二级引证文献2

1王旭,蔡远利,张学成,张荣良,韩成龙.基于分层强化学习的低过载比拦截制导律[J].空天防御,2024,7(1):40-47.
2霍红刚,周蠡,蔡杰,贺兰菲,陈然,何峰,王灿.基于先验知识Faster R-CNN的输电线路无人机图像识别方法[J].智慧电力,2024,52(6):108-115.

1姜威.排球运动员训练管理信息系统的设计与实现[J].当代体育,2020(24):196-196.
2申霖,陈群青.对国内外训练控制方法理论的比较研究[J].湖北体育科技,2021,40(5):451-456. 被引量：1
3李孟凡,秦文虎,云中华.基于横纵向联合控制的多目标优化车辆跟驰研究[J].计算机应用研究,2022,39(8):2409-2413. 被引量：2
4江帆,周杰,史强大.智能控制算法在电动汽车线控制动系统中的应用研究[J].汽车知识,2022,22(7):4-6.
5李中捷,高伟,熊吉源,李江虹.采用DDPG的联合波束成形和功率控制算法[J].西安电子科技大学学报,2022,49(4):39-48. 被引量：2
6畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：2

计算机工程

2022年第8期

浏览历史

内容加载中请稍等...

基于深度强化学习的机械臂控制快速训练方法被引量：5

参考文献3

二级参考文献20

共引文献20

同被引文献35

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的机械臂控制快速训练方法 被引量：5

参考文献3

二级参考文献20

共引文献20

同被引文献35

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的机械臂控制快速训练方法被引量：5