针对二连杆机械臂控制的DDPG算法研究被引量：1

Research on DDPG Algorithm for Two-link Robotic Arm Control

下载PDF

导出

摘要深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)在连续控制问题中具有良好的表现。针对二连杆机械臂的运动控制问题,提出了一种基于深度确定性策略梯度算法的控制方法。为了提升模型的收敛速度,结合了多目标学习的方法,使机械臂可以从已到达的位置获取奖励,同时还改进了DDPG算法的经验回放机制,根据样本的重要性程度分类存储,网络模型训练时优先选择重要性程度高的样本。实验结果表明,结合多目标学习方法和分类经验回放方法的DDPG算法具有更好的性能。 The Deep Deterministic Policy Gradient(DDPG)algorithm achieves good performance in continuous control problems.A control method based on a depth-deterministic policy gradient algorithm is proposed for the motion control problem of a two-linked robotic arm.In order to improve the convergence speed of the model,a multi-objective learning method is combined so that the robotic arm can obtain rewards from the reached positions,and the experience replay method of the DDPG algorithm is also improved to store the samples according to their importance degree in classification,and the samples with high importance degree are selected in preference when the network model is trained.The experimental results show that the DDPG algorithm combining the multi-objective learning method and the classification experience replay method has better performance.

作者陈奎烨葛群峰高兴波陈路 CHEN Kui-ye;GE Qun-feng;GAO Xing-bo;CHEN Lu(Faculty of Electrical Engineering and Computer Science,Ningbo University,Ningbo 315211,China)

机构地区宁波大学信息科学与工程学院

出处《无线通信技术》 2021年第3期17-22,共6页 Wireless Communication Technology

关键词深度确定性策略梯度算法二连杆机械臂经验回放多目标学习 deep deterministic policy gradient two-linked robotic arm experience replay multi-goal learning

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1赵新华,王璞,陈晓红.投球机器人模糊PID控制[J].智能系统学报,2015,10(3):399-406. 被引量：10
2万仁卓,王思源,冯绎铭,桂熙,丁雷,王骏,周国鹏.基于二连杆任务的深度强化学习算法分析与比较[J].湖北科技学院学报,2019,39(3):151-156. 被引量：3
3多南讯,吕强,林辉灿,卫恒.迈进高维连续空间:深度强化学习在机器人领域中的应用[J].机器人,2019,41(2):276-288. 被引量：24

二级参考文献21

1吴向阳,戴先中,孟正大.分布式机器人控制器体系结构的研究[J].东南大学学报（自然科学版）,2003,33(z1):200-204. 被引量：11
2钱善华,葛世荣,王永胜,王勇,柳昌庆.救灾机器人的研究现状与煤矿救灾的应用[J].机器人,2006,28(3):350-354. 被引量：105
3阎绍泽,刘又午,张铁民.柔性机械臂动力学特性的实验研究[J].河北工业大学学报,1996,25(3):12-17. 被引量：3
4樊晓平,徐建闽,周其节,梁天培.柔性机器人的动力学建模及其控制[J].控制理论与应用,1997,14(3):318-329. 被引量：23
5谭宝成,程智远,牟云霞,刘江.移动机器人模糊控制系统的设计[J].西安工业大学学报,2007,27(4):366-370. 被引量：4
6孙奎,谢宗武,刘宏.一种新的机器人动力学仿真分析方法[J].机械设计与制造,2008(5):163-165. 被引量：7
7李余庆,刘继忠,张华.模糊控制在机器人超声避障系统的应用[J].微计算机信息,2009,25(14):216-218. 被引量：8
8范永,谭民.机器人控制器的现状及展望[J].机器人,1999,21(1):75-80. 被引量：69
9陆磊.模糊PID控制在轮式机器人上的应用[J].微型电脑应用,2010,26(12):31-33. 被引量：7
10陆佑方,冯冠民,齐朝晖.柔性机械臂动力学与控制建模的若干基本问题[J].机器人,1993,15(5):52-59. 被引量：14

共引文献34

1李奇,李茂军.基于模糊控制的高压直流输电系统换流站控制器的设计[J].电力学报,2016,31(5):401-407. 被引量：2
2葛洋,张安彩,霍建振,段士伟,王垒,康加爽.独轮车杂技机器人的动力学建模与稳定控制[J].自动化应用,2017(3):101-103. 被引量：1
3乔西宁,魏建华,时文卓,方锦辉.基于模糊PID的超高压控制方法研究[J].液压与气动,2017,41(10):45-53. 被引量：5
4刘经纬,赵辉,周瑞,朱敏玲,王普.规则推理与神经计算智能控制系统改进及比较[J].智能系统学报,2017,12(6):823-832. 被引量：3
5张萍,陈国壮,候云雷,李东.模糊控制红外循迹小车的研究[J].实验室研究与探索,2018,37(7):50-53. 被引量：7
6王春荣,夏尔冬,高浩,邱丽梅,刘建军.仿人机械臂的运动仿真分析[J].榆林学院学报,2018,28(6):10-13. 被引量：2
7崔俊文,刘自红,石磊,刘福强,乐玉.基于分层学习的四足机器人运动自适应控制模型[J].计算机测量与控制,2020,28(1):105-110. 被引量：4
8宋欣屿,王英勋,蔡志浩,赵江,陈小龙,宋栋梁.基于深度强化学习的无人机着陆轨迹跟踪控制[J].航空科学技术,2020,31(1):68-75. 被引量：8
9贺笑,李俊,侯言旭.基于深度Q网络的机器人抓取系统[J].工业控制计算机,2020,33(7):28-29.
10甄岩,袁健全,池庆玺,郝明瑞.深度强化学习方法在飞行器控制中的应用研究[J].战术导弹技术,2020(4):112-118. 被引量：3

同被引文献11

1刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
2刘恩海,高文斌,孔瑞平,刘贝野,董瑶,陈媛媛.改进的RRT路径规划算法[J].计算机工程与设计,2019,40(8):2253-2258. 被引量：48
3李跃,邵振洲,赵振东,施智平,关永.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020,56(2):226-232. 被引量：9
4Yang Yang,Li Juntao,Peng Lingling.Multi-robot path planning based on a deep reinforcement learning DQN algorithm[J].CAAI Transactions on Intelligence Technology,2020,5(3):177-183. 被引量：35
5郑嫦娥,高坡,GAN Hao,田野,赵燕东.基于分步迁移策略的苹果采摘机械臂轨迹规划方法[J].农业机械学报,2020,51(12):15-23. 被引量：13
6王建平,王刚,毛晓彬,马恩琪.基于深度强化学习的二连杆机械臂运动控制方法[J].计算机应用,2021,41(6):1799-1804. 被引量：16
7范晶晶,陈建平,傅启明,陆悠,吴宏杰.基于多重指数移动平均评估的DDPG算法[J].计算机工程与设计,2021,42(11):3084-3090. 被引量：1
8刘勇,李祥,蒋沛阳,孙博熙,吴喆,姜潇,钱森.基于DDPG-PID的机器人动态目标跟踪与避障控制研究[J].南京航空航天大学学报,2022,54(1):41-50. 被引量：14
9白争锋,孔清峰,赵起.软体连续机械臂动力学建模与仿真[J].力学学报,2022,54(1):184-195. 被引量：3
10赵寅甫,冯正勇.基于深度强化学习的机械臂控制快速训练方法[J].计算机工程,2022,48(8):113-120. 被引量：6

引证文献1

1李家乐,张建锋,李彬,刘天琅,陈检.基于深度强化学习的机械臂多模混合控制[J].计算机工程与设计,2024,45(9):2835-2843.

1张建行,刘全.基于情节经验回放的深度确定性策略梯度方法[J].计算机科学,2021,48(10):37-43. 被引量：6
2朱霞.互联网背景下港口运输供应链信息管理分析[J].中国储运,2021(9):83-84. 被引量：2
3陈晓楠.医院计算机网络系统的应用管理[J].电脑乐园,2021(6):0117-0117.
4赵玉刚,杨雨佳,张艳红,张德福.基于ELM-IWO机械臂运动学逆解算法研究[J].电脑编程技巧与维护,2021(10):124-125.

无线通信技术

2021年第3期

浏览历史

内容加载中请稍等...

针对二连杆机械臂控制的DDPG算法研究被引量：1

参考文献3

二级参考文献21

共引文献34

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

针对二连杆机械臂控制的DDPG算法研究 被引量：1

参考文献3

二级参考文献21

共引文献34

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

针对二连杆机械臂控制的DDPG算法研究被引量：1