基于强化学习的空间机械臂控制方法被引量：7

Control Method of Space Manipulator by Using Reinforcement Learning

下载PDF

导出

摘要针对现有空间机械臂控制方法在实际应用中调试时间长、稳定性差的问题,提出一种基于深度强化学习的控制算法。构建仿真环境用于产生数据,通过状态变量实现仿真环境与深度强化学习算法的交互,通过奖励函数实现对神经网络参数的训练,最终实现使用近端策略优化算法(Proximal Policy Optimization,PPO)控制空间机械臂将抓手移动至物体下方特定位置的目的。实验结果表明,本文提出的控制算法能够快速收敛,实现控制空间机械臂完成特定目标,并且有效降低抖动现象,提升控制的稳定性。 Aiming at solving the problems of long commissioning time and poor stability of the existing space manipulator control methods in practical applications,a control method based on deep reinforcement learning is proposed.Firstly,the simulation environment is established for generating data.Then,the interaction between the simulation environment and the deep reinforcement learning algorithm is realized through state variables,and the neural network parameters are trained through the reward functions.Finally,the purpose of controlling the space manipulator for moving the gripper to a specific position below the object by using the Proximal Policy Optimization algorithm(PPO)is achieved.The experimental results show that the control method proposed in this paper can achieve quick convergence.After the neural net-work converges,the jitter phenomenon is effectively suppressed,indicating that the algorithm improves the stability of the control.

作者李鹤宇林廷宇曾贲施国强 Li Heyu;Lin Tingyu;Zeng Bi;Shi Guoqiang(Beijing Institute of Electronic System Engineering,Beijing 100854,China;Beijing Simulation Center,Beijing 100854,China)

机构地区北京电子工程总体研究所北京仿真中心

出处《航天控制》 CSCD 北大核心 2020年第6期38-43,共6页 Aerospace Control

关键词空间机械臂神经网络深度强化学习近端策略优化算法(PPO) Space manipulator Neural network Deep reinforcement learning Proxinal Policy optimization algorithm(PPO)

分类号 TP241 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献4

1王兴龙,周志成,曲广吉.空间机械臂捕获失稳目标的动态轨迹规划方法[J].宇航学报,2017,38(7):678-685. 被引量：13
2韩艳铧.空间机械臂抓取目标动力学与寻的制导控制[J].宇航学报,2016,37(9):1098-1106. 被引量：3
3荣吉利,杨永泰,李健,胡成威,刘宾.空间机械臂建模方法与控制策略研究[J].宇航学报,2012,33(11):1564-1569. 被引量：19
4Ying-Hong Jia,Quan Hu,Shi-Jie Xu.Dynamics and adaptive control of a dual-arm space robot with closed-loop constraints and uncertain inertial parameters[J].Acta Mechanica Sinica,2014,30(1):112-124. 被引量：20

二级参考文献28

1Dwivedy S K, Eberhard P. Dynamic analysis of flexible manipulators, a literature review [ J ]. Mechanism and Machine Theory, 2006, 41 : 749 -777.
2Garcia D J, Bayo E. Kinematic and dynamic simulation of multibody systems : the real-time challenge [ M ]. New York : Springer, 1994.
3Shabana A A. An absolute nodal coordinates formulation for the large rotation and deformation analysis of flexible bodies [ R ].Technical Report No. MBS96-1-UIC, University of Illinois at Chicago, USA, 1996.
4Tian Q, Liu C, Machado M, Flores P. A new model for dry and lubricated cylindrical joints with clearance in spatial tlexible multibody systems[J]. Nonlinear Dynamics, 2011, 64:25 -47.
5Liu C, Tian Q, Hu H Y. Dynamics of a large scale rigid-flexible multibody system composed of composite laminated plates [ J ]. Multibody System Dynamics, 2011, 26: 283- 305.
6Garcia D J, Callejo A. A straight methodology to include multibody dynamics in graduate and undergraduate subjects[ J]. Mechanism and Machine Theory, 2011, 46 : 168 - 182.
7Chung J, Hulbert G. A time integration algorithm for structural dynamics with improved numerical dissipation: the generalized-a method[J]. Journal of Applied Mechanics,1993, 60:371 -375.
8Bottasso C, Dopico D, Trainelli L. On the optimal scaling of index three DAEs in multibody dynamics [ J ]. Muhibody System Dynamics, 2008, 19( 1 ) : 3 -20.
9Omar M A, Shabana A A. A two-dimensional shear deformable beam for large rotation and deformation problems [ J ]. Journal of Sound and Vibration, 2001, 243(3) : 565 -576.
10ihabana A A. Dynamics of multibody system [ M ]. New York : Cambridge University Press, 2005.

共引文献49

1王兴龙,周志成,王典军,陈士明.面向空间近距离操作的机械臂与服务卫星协同控制[J].宇航学报,2020,41(1):101-109. 被引量：7
2Siamak Pedrammehr,Saeid Nahavandi,Hamid Abdi.Closed-form dynamics of a hexarot parallel manipulator by means of the principle of virtual work[J].Acta Mechanica Sinica,2018,34(5):883-895. 被引量：3
3刘捷烽.特殊的外科大夫[J].科学大众（小诺贝尔）,2000(3):35-35.
4杜刚.关于机械手臂控制方案的研究[J].科技资讯,2013,11(29):83-83. 被引量：1
5祁若龙,周维佳,王铁军.一种基于遗传算法的空间机械臂避障轨迹规划方法[J].机器人,2014,36(3):263-270. 被引量：63
6周志成,王兴龙,曲广吉.大型空间柔性组合航天器动力学建模与控制[J].中国科学：物理学、力学、天文学,2019,49(2):58-69. 被引量：7
7黄诚,刘华平,沈昱明.基于主动视觉的空间机器人遥操作系统[J].计算机应用研究,2014,31(8):2372-2375. 被引量：1
8郭闻昊,王天舒.空间机器人抓捕目标星碰撞前构型优化[J].宇航学报,2015,36(4):390-396. 被引量：28
9陈罡,严楠,高晓丁,孟静.穿鞋带机械手ADAMS与MATLAB联合仿真研究[J].机械设计与制造,2015(6):230-232. 被引量：8
10王帅鹏,冯燕.基于嵌入式视觉技术的军事禁区人员监控[J].科技通报,2015,31(6):160-162.

同被引文献81

1车众元,王景瑞,吴雪松.基于混合插值的机械臂运动轨迹跟踪控制方法[J].科技通报,2020(10):46-51. 被引量：7
2陈善峰,尹建军,王玉飞,杨自栋.果实采摘机械手多关节求解方法与避障规划[J].农机化研究,2012,34(7):24-28. 被引量：2
3唐中勇,付强,卓佳,陈焕文.一类基于启发式搜索的激励学习算法[J].计算机技术与发展,2006,16(8):41-43. 被引量：2
4蔡健荣,赵杰文,Thomas Rath,Macco Kawollek.水果收获机器人避障路径规划[J].农业机械学报,2007,38(3):102-105. 被引量：42
5李庆瀛,褚金奎,李荣华,王洪青.基于卡尔曼滤波的移动机器人运动目标跟踪[J].传感器与微系统,2008,27(11):66-68. 被引量：19
6王良勇,柴天佑.带有神经网络补偿的机械手PD控制[J].中国电机工程学报,2009,29(12):110-115. 被引量：20
7彭丁聪.卡尔曼滤波的基本原理及应用[J].软件导刊,2009,8(11):32-34. 被引量：199
8洪昭斌,陈力.具有未知参数漂浮基双臂空间机器人惯性空间复合自适应控制[J].中国机械工程,2010,21(1):12-16. 被引量：7
9陈杰,李志平,张国柱.变结构神经网络自适应鲁棒控制[J].自动化学报,2010,36(1):174-178. 被引量：18
10李晶,范九伦.一种基于卡尔曼滤波的运动物体跟踪算法[J].计算机应用研究,2010,27(8):3162-3164. 被引量：22

引证文献7

1官金炫,林桂潮,张世昂,朱立学.水果采摘机械臂避障运动规划优化算法[J].现代农业装备,2021,42(3):49-55. 被引量：2
2王瑞,王富国,孙雪倩,安其昌.可变智能桁架在大口径光学望远镜中的应用[J].红外与激光工程,2021,50(10):32-44.
3黄民昌,蒋政,张南,褚衍超,胡勇.基于启发式学习的折叠舵展开安全优化控制[J].航天控制,2021,39(6):20-26. 被引量：1
4闫飞,王树波.基于扰动观测器的机械臂自适应复合控制[J].控制工程,2022,29(4):763-768. 被引量：4
5傅彩虹.基于扰动观测器的机械臂自适应复合控制与设计研究[J].现代制造技术与装备,2022,58(9):207-209.
6刘胜遂,李利娜,熊晓燕,张金柱,刘畅.基于卡尔曼滤波的机器人自适应控制方法研究[J].机电工程,2023,40(6):936-944. 被引量：2
7赵岳峰,高英博.基于改进RBF神经网络的机械臂运动轨迹跟踪控制方法[J].信息记录材料,2024,25(2):103-105.

二级引证文献9

1傅彩虹.基于扰动观测器的机械臂自适应复合控制与设计研究[J].现代制造技术与装备,2022,58(9):207-209.
2金斌.基座对弹道落点偏差影响机理研究[J].航天控制,2022,40(5):67-71.
3李国琪,胡陟,陈籽聿,孙丽岩.基于干扰观测器的双臂手术机器人自适应阻抗控制[J].中国医学物理学杂志,2023,40(6):714-719.
4李航,廖映华,黄波.基于改进DQN算法的茶叶采摘机械手路径规划[J].中国农机化学报,2023,44(8):198-205.
5王柯竣,胡乃瑞.基于CH32的多车编队小车的设计[J].工业控制计算机,2023,36(9):154-155.
6解霄鹏,王佳玮,高波,于凌涛.基于视觉反馈的机械臂位置模糊控制[J].应用科技,2023,50(6):111-116.
7郭仓库.基于卷积神经网络的采摘机械臂无碰撞运动规划研究[J].农机化研究,2024,46(3):42-46. 被引量：1
8李智,刘树博,张志远.复杂执行器非线性的不确定机器人变参数滑模非脆弱控制[J].控制工程,2024,31(2):375-384.
9李云翔,周书民,汪志成,嵇志腾,朱青,周显恩,彭光荣.基于激光位移传感器的机器人动态平面跟踪控制方法[J].机电工程技术,2024,53(4):25-29.

1无.ZEISS PiWeb App:充分挖掘数据潜能[J].世界制造技术与装备市场,2020(5):75-76.
2李宗辰.基于Hadoop平台的聚类算法研究[J].花炮科技与市场,2020(3):10-11. 被引量：1
3王志军(文/图).利用Office 365新函数实现动态数组功能[J].电脑知识与技术（经验技巧）,2020(11):32-33.
4张世强.功能性黏土基纳米复合水处理膜的研究进展[J].市场周刊·理论版,2020(30):0199-0199.
5金磊,范建博,刘政宏,魏亮亮.某型机前轮转弯系统单侧操纵抖动问题研究[J].液压与气动,2020(11):140-144. 被引量：1
6张智云.桥梁隧道施工中灌浆技术的应用研究[J].中华建设,2020(26):0215-0216.
7陈宇钡,吉柏锋.下击暴流低空风切变数值模拟[J].四川建材,2020,46(11):223-223.
8滕青芳,罗维多.基于分数阶滑模速度观测器的三电平逆变器驱动PMSM的模型预测电流控制[J].Journal of Measurement Science and Instrumentation,2020,11(4):358-364. 被引量：1
9张凯乐,刘婷婷,刘箴,庄寅,柴艳杰.面向情绪调节的多模态人机交互技术[J].中国图象图形学报,2020,25(11):2451-2464. 被引量：9
10杨雨辰,毋立芳,简萌,赵博煊,刘旭.Savitzky-Golay滤波和L1范数优化相结合的视频稳像算法[J].信号处理,2020,36(11):1829-1837. 被引量：6

航天控制

2020年第6期

浏览历史

内容加载中请稍等...

基于强化学习的空间机械臂控制方法被引量：7

参考文献4

二级参考文献28

共引文献49

同被引文献81

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于强化学习的空间机械臂控制方法 被引量：7

参考文献4

二级参考文献28

共引文献49

同被引文献81

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于强化学习的空间机械臂控制方法被引量：7