基于深度强化学习的蛇形机械臂控制策略研究被引量：1

Research on Snake-like Arm Control Strategy Based on Deep Reinforcement Learning

下载PDF

导出

摘要针对蛇形机械臂控制问题,提出了一种基于深度强化学习的控制策略,该控制策略采用深度确定性策略梯度算法(DDPG)。分析了蛇形机械臂的结构和工作范围。基于Python语言,使用gym中的pyglet模块搭建用于产生数据的仿真环境,设置奖励函数、状态变量和动作变量,最终实现了对蛇形机械臂的精确控制。仿真实验表明:DDPG算法在蛇形机械臂的控制过程中能快速收敛,同时该控制策略在2D平面可实现对目标物的快速精确逼近,并具有较好的鲁棒性。 Aiming at the control problem of snake-like arm,a control strategy based on deep reinforcement learning is proposed,which adopts deep deterministic policy gradient(DDPG).This paper analyzes the structure and working range of the snake-like arm.Based on Python language,using pyglet module in gym to build a simulation environment for generating data,setting reward function,state variables and action variables,the precise control of the snake-like arm is finally realized.The simulation results show that the DDPG algorithm can converge quickly in the control process of the snake-like arm,and the control strategy can achieve fast and accurate approximation of the target object in the 2D plane,and has good robustness.

作者唐超张帆王文龙李徐 Tang Chao;Zhang Fan;Wang Wenlong;Li Xu(School of Mechanical and Automotive Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区上海工程技术大学机械与汽车工程学院

出处《农业装备与车辆工程》 2022年第8期17-21,共5页 Agricultural Equipment & Vehicle Engineering

基金上海市科委生物医药领域科技支撑计划资助(17441901200)。

关键词深度强化学习蛇形机械臂 2D 控制策略 DDPG deep reinforcement learning snake-like arm 2D control strategy DDPG

分类号 TP241 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1马可,李斌,王聪,张良全,常健.蛇形机械臂的机构设计与关节驱动分析[J].高技术通讯,2017,27(11):958-965. 被引量：7
2胡海燕,王鹏飞,孙立宁,赵勃,李满天.线驱动连续型机器人的运动学分析与仿真[J].机械工程学报,2010,46(19):1-8. 被引量：63
3Anfan ZHANG,Shugen MA,Bin LI,Minghui WANG,Xian GUO,Yuechao WANG.Adaptive controller design for underwater snake robot with unmatched uncertainties[J].Science China(Information Sciences),2016,59(5):213-227. 被引量：4
4马影,张宇,陈丽,高其远,邓宇翔.移动蛇形机械臂空间路径跟踪策略研究[J].现代制造工程,2021(1):43-51. 被引量：3
5王轸,常健,李斌,王聪,刘春,张良全.基于脊线模态法和RRT算法的蛇形机械臂避障控制研究[J].高技术通讯,2020,30(12):1274-1283. 被引量：5
6李鹤宇,赵志龙,顾蕾,郭丽琴,曾贲,林廷宇.基于深度强化学习的机械臂控制方法[J].系统仿真学报,2019,31(11):2452-2457. 被引量：12
7王建平,王刚,毛晓彬,马恩琪.基于深度强化学习的二连杆机械臂运动控制方法[J].计算机应用,2021,41(6):1799-1804. 被引量：13

二级参考文献44

1陈伟海,陈泉柱,张建斌,张颖.线驱动拟人臂机器人逆向运动学分析[J].机械工程学报,2007,43(4):12-20. 被引量：22
2ROBINSON G, DAVIES J B C. Continuum robots-a state of the art[C]//Proceedings of IEEE Intemational Conference on Robotics and Automation, May 10-15, 1999, Detroit, Michigan. IEEE, 1999: 2849-2854.
3HANNAN M W, WALKER I D. Kinematics and the implementation of an elephant's trunk manipulator and other continuum style robots[J]. Journal of Robotic Systems, 2003, 20(2): 45-63.
4WALKER I D, CARRERAS C, MCDONNELL R, et al Extension versus bending for continuum robots[J] International Journal of Advanced Robotic Systems, 2006, 3(2): 171-178.
5GRAVAGNE I A, RAHN C D, WALKER I D. Large deflection dynamics and control for planar continuum robots[J]. IEEE/ASME Transactions on Mechatronics, 2003, 8(2): 299-307.
6WALKER I D, HANNAN M W. A novel 'elephant's trunk' robot[C]//Proceedings of IEEE/ASME Imernational Conference on Advanced Intelligent Mechatronics, Sept. 19-23, 1999, Atlanta, USA. IEEE, 1999: 410-415.
7JONES B A, MCMAHAN W, WALKER I D. Design and analysis of a novel pneumatic manipulator[C]// Proceedings of 3rd IFAC Symposium on Mechatronic Systems, Sept. 6-8, 2004, Sydney, Australia. 2004: 745-750.
8MCMAHAN W, CHITRAKARAN V, CSENCSITS M, et al. Field trials and testing of the OctArm continuum manipulator[C]//Proceedings of IEEE International Conference on Robotics and Automation, May 15-19, 2006, Orlando, Florida. IEEE, 2006: 2336-2341.
9SIMAAN N. Snake-like units using flexible backbones and actuation redundancy for enhanced miniaturization[C]// Proceedings of IEEE International Conference on Robotics and Automation, Apr. 18-22, 2005, Barcelona, Spain. IEEE, 2005. 3012-3017.
10CHEN G, PHAM M T, REDARCE T, et al. Development and kinematic analysis of a silicone-rubber bending tip for colonoscopy[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems, Oct. 9-15, 2006, Beijing, China. IEEE/RSJ, 2006: 168-173.

共引文献97

1罗护,高佳薇,姚善银,罗梦思.农林用精准对靶机械手运动学建模及仿真[J].农业机械,2023(8):80-83. 被引量：1
2钟辉,袁邦颐,丁度坤,辛曼玉,邓建新,黄秋林.基于模型补偿的机械臂位置跟踪控制研究[J].装备制造技术,2022(9):24-28.
3李强,何斌,谢红.连续型机器人的动力学建模与仿真[J].机械设计与研究,2012,28(2):18-22. 被引量：10
4主洁.连续型机器人研究综述[J].环球市场信息导报（理论）,2012(3):37-37. 被引量：1
5张霖,王忠宾,李允旺.基于Creo的摇杆式变形履带机器人移动平台的分析与仿真[J].机械设计与研究,2012,28(4):34-37. 被引量：6
6冯笑笑,倪劲成,姜付兵,薛庭雨,胡海燕.基于Pro/E的结肠镜机器人的建模与仿真[J].苏州大学学报（工科版）,2012,32(5):32-36. 被引量：2
7胡海燕,李伟达,李娟,孙立宁.结肠镜机器人结构设计与通过性研究[J].哈尔滨工程大学学报,2013,34(2):233-239. 被引量：6
8高庆吉,王维娟,牛国臣,王磊,郑遵超.飞机油箱检查机器人的仿生结构及运动学研究[J].航空学报,2013,34(7):1748-1756. 被引量：16
9刘阳辉,张平.基于ADAMS的连续型机器人建模与运动仿真[J].机床与液压,2013,41(11):163-166. 被引量：5
10高庆吉,王磊,牛国臣,王维娟.基于目标导向的连续型机器人路径规划[J].北京航空航天大学学报,2013,39(11):1486-1490. 被引量：5

同被引文献12

1王东署,王海涛.未知环境中自主机器人环境探索与地图构建[J].郑州大学学报（理学版）,2013,45(4):52-57. 被引量：5
2杨文臣,张轮,Zhu Feng.多智能体强化学习在城市交通网络信号控制方法中的应用综述[J].计算机应用研究,2018,35(6):1613-1618. 被引量：30
3陈泽涛,郑乐藩,万燕英.基于混合拍卖算法的多机器人对未知环境的探索[J].南方职业教育学刊,2019,9(4):105-109. 被引量：1
4秦智慧,李宁,刘晓彤,刘秀磊,佟强,刘旭红.无模型强化学习研究综述[J].计算机科学,2021,48(3):180-187. 被引量：25
5邱月,郑柏通,蔡超.多约束复杂环境下UAV航迹规划策略自学习方法[J].计算机工程,2021,47(5):44-51. 被引量：7
6李波,越凯强,甘志刚,高佩忻.基于MADDPG的多无人机协同任务决策[J].宇航学报,2021,42(6):757-765. 被引量：23
7蔡新雷,崔艳林,董锴,孟子杰,潘远,喻振帆,王吉兴,孟乡占,余洋.基于改进K-means和MADDPG算法的风储联合系统日前优化调度方法[J].储能科学与技术,2021,10(6):2200-2208. 被引量：6
8阮晓钢,郭威,黄静,颜文静,郭佩远.机器人信息增益RRT环境探索算法[J].控制与决策,2021,36(11):2683-2689. 被引量：8
9申怡,刘全.基于自指导动作选择的近端策略优化算法[J].计算机科学,2021,48(12):297-303. 被引量：6
10张世勇,张雪波,苑晶,方勇纯.旋翼无人机环境覆盖与探索规划方法综述[J].控制与决策,2022,37(3):513-529. 被引量：17

引证文献1

1安城安,周思达.基于改进多智能体PPO的多无人机协同探索方法[J].电光与控制,2024,31(1):51-56.

1赵寅甫,冯正勇.基于深度强化学习的机械臂控制快速训练方法[J].计算机工程,2022,48(8):113-120. 被引量：5
2马健,樊艳芳,王一波,张鑫宇.适用于集中型光伏直流升压变换器的MPPT策略[J].太阳能学报,2022,43(5):137-145. 被引量：6
3邢志霞,张孝惠.Toader型平均关于其他二元平均的逼近[J].浙江理工大学学报（自然科学版）,2022,47(4):588-595.
4王艺均,冯勇,李英娜,付晓东,钱谦.基于注意力机制和策略梯度的多MC充电调度[J].传感技术学报,2022,35(6):809-817.
5曾熠,刘丽华,李璇,杜溢墨,陈丽娜.基于决策知识学习的多无人机航迹协同规划[J].计算机系统应用,2022,31(8):125-132. 被引量：1
6李中捷,高伟,熊吉源,李江虹.采用DDPG的联合波束成形和功率控制算法[J].西安电子科技大学学报,2022,49(4):39-48. 被引量：2
7张健,姜夏,史晓宇,程健,郑岳标.基于离线强化学习的交叉口生态驾驶控制[J].东南大学学报（自然科学版）,2022,52(4):762-769. 被引量：5
8钟裔灵,朵琳.基于知识感知采样的神经协同过滤[J].电视技术,2022,46(6):14-19. 被引量：1
9李孟凡,秦文虎,云中华.基于横纵向联合控制的多目标优化车辆跟驰研究[J].计算机应用研究,2022,39(8):2409-2413. 被引量：2
10陈亚绒,周升伟,管在林,岳磊.基于增强拓扑神经进化的等效并行机动态调度[J].华中科技大学学报（自然科学版）,2022,50(6):111-117.

农业装备与车辆工程

2022年第8期

浏览历史

内容加载中请稍等...

基于深度强化学习的蛇形机械臂控制策略研究被引量：1

参考文献7

二级参考文献44

共引文献97

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的蛇形机械臂控制策略研究 被引量：1

参考文献7

二级参考文献44

共引文献97

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的蛇形机械臂控制策略研究被引量：1