基于PPO的机械臂控制研究方法被引量：1

Research Method of Manipulator Control Based on PPO

下载PDF

导出

摘要目前应用于机械臂控制中有许多不同的算法,如传统的自适应PD控制、模糊自适应控制等,这些大多需要基于数学模型。也有基于强化学习的控制方法,如:DQN(Deep Q Network)、Sarsa等。但这些强化学习算法在连续高维的动作空间中存在学习效率不高、回报奖励设置困难、控制效果不佳等问题。论文对基于PPO(Proximal Policy Optimization近端策略优化)算法实现任意位置的机械臂抓取应用进行研究,并将实验数据与Actor-Critic(演员-评论家)算法的进行对比,验证了使用PPO算法的控制效果良好,学习效率较高且稳定。 In manipulator control,there are many different control methods,such as traditional adaptive PD control and fuzzy adap⁃tive control,which are mostly based on mathematical models.There are also control methods based on reinforcement learning,such as DQN(Deep Q Network),Sarsa,etc.However,these reinforcement learning algorithms have some problems such as low learning efficiency,difficulty in setting rewards,and poor control effect in the continuous high-dimensional action space.According to Prox⁃imal Policy Optimization algorithm,the application of robot arm grasping at any position is studied,and the experimental data is compared with actor-critic algorithm,which proves that the PPO algorithm has good control effect,high learning efficiency and sta⁃bility.

作者郭坤武曲张义 GUO Kun;WU Qu;ZHANG Yi(School of Information and Control Engineering,Qingdao University of Technology,Qingdao 266520,China)

机构地区青岛理工大学信息与控制工程学院

出处《电脑知识与技术》 2021年第4期222-225,共4页 Computer Knowledge and Technology

基金山东省自然科学基金资助项目(ZR2017BF043)。

关键词强化学习机械臂近端策略优化算法 Actor-Critic算法离线学习 reinforcement learning robot manipulator proximal strategy optimization algorithm Actor-Critic algorithm offline learning

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1秦志斌,钱徽,朱淼良.自主移动机器人混合式体系结构的一种Multi-agent实现方法[J].机器人,2006,28(5):478-482. 被引量：8
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：480

二级参考文献22

1李佳宁,易建强,赵冬斌,西广成.移动机器人体系结构研究进展[J].机器人,2003,25(z1):756-760. 被引量：7
2陈春林,陈宗海,周光明.基于多智能体的自主移动机器人混合式体系结构[J].系统工程与电子技术,2004,26(11):1746-1748. 被引量：9
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5Nicolescu M N, Mataric M J. A hierarchical architecture for behavior-based robots [ A ]. Proceedings of the first International Joint Conference on Autonomous Agents and Multiagent Systems [ C ].New York, USA: ACM Press, 2002. 227-233.
6McKee G T, Brooks B G. Resource management for networked robotics systems [A]. Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems [C]. Piscataway,USA: IEEE, 1997. 1363- 1368.
7Medeiros A A D. A survey of control architectures for autonomous mobile robots [ J ]. Journal of the Brazilian Computer Society, 1998,4 (3). http ://www. scielo.br/scielo.php? script = sci arttext&pid= S0104-65001998000100004&lng = en&nrm = iso&tlng = en.
8Gat E. Three-layer Architectures in Artificial Intelligence and Mobile Robots[M]. USA: AAAI Press/The MIT Press, 1998. 195-210.
9Gat E. Integrated planning and reacting in a heterogeneous asynchronous architecture for controlling real-world mobile robots [ A ].Proceedings of the Tenth National Conference on Artificial Intelligence[C]. Menlo Park, USA: AAAI, 1992. 809-815.
10Piaggio M. HEIR - a non hierarchical hybrid architecture for intelligent robots[ A]. Proceedings of the 5th International Workshop on Agent Theories, Architectures and Languages[ C]. Berlin, Germany: Spfinger-Verlag, 1998. 243-259.

共引文献486

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：46
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.

同被引文献5

1朱景艳,张志俭,郭赟.套管式直流蒸汽发生器动态实时仿真研究[J].原子能科学技术,2011,45(8):937-942. 被引量：4
2陈智,廖龙涛,刘立新,李伟.T-S型模糊神经方法在直流蒸汽发生器给水控制中的应用研究[J].核动力工程,2012,33(4):20-23. 被引量：3
3成守宇,李程,彭敏俊,刘新凯.基于人工免疫的直流蒸汽发生器压力控制研究[J].核动力工程,2015,36(3):62-65. 被引量：3
4赵刚,赵宇兰,刘金福.套管式直流蒸汽发生器汽轮机一体化控制策略[J].节能技术,2020,38(2):162-166. 被引量：3
5张月,郑明光,马志才,吴建邦.螺旋管式直流蒸汽发生器建模仿真与控制[J].应用科技,2020,47(6):71-77. 被引量：2

引证文献1

1李程,余刃,余文敏,王天舒.基于强化学习的直流蒸汽发生器控制策略研究[J].舰船科学技术,2022,44(11):89-94. 被引量：2

二级引证文献2

1刘海鹏,王昌朔,叶竹,田培妤.基于Apros的套管式蒸汽发生器给水控制优化研究[J].核动力工程,2023,44(4):170-178.
2张涛,石波,吴治江,郭伟.浮动核电站OTSG蒸汽压力线性自抗扰串级控制设计与验证[J].核动力工程,2024,45(3):186-192.

1张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：18
2刘福才,刘林,兰会,赵旭.柔性关节空间机械臂奇异摄动自适应PD控制仿真研究[J].高技术通讯,2017,27(9):833-839. 被引量：4
3温盛军,翟睿,郭光复,康连启,朱菁.NAO机器人手臂的运动建模与控制[J].中原工学院学报,2018,29(1):83-88. 被引量：1
4丁艳风.基于数学模型的网络通信系统窃密保护研究[J].信息与电脑,2020,32(23):184-185. 被引量：4
5李宇航,王文涛,陈其针,黄云洁,张玉虎.我国科普奖励现状探析[J].今日科苑,2020(9):68-74. 被引量：7
6万瀚龙,曾亚姣.中学生物质奖励的审思与改进[J].教学与管理,2020(10):24-26. 被引量：2
7邵江南,葛洪伟.融合残差连接与通道注意力机制的Siamese目标跟踪算法[J].计算机辅助设计与图形学学报,2021,33(2):260-269. 被引量：8
8徐建明,赵帅.工业机器人动力学参数辨识与自适应控制方法研究[J].浙江工业大学学报,2020,48(4):375-383. 被引量：20
9单麒源,张智豪,张耀心,余宗祥.基于SAC算法的矿山应急救援智能车快速避障控制[J].黑龙江科技大学学报,2021,31(1):14-20. 被引量：6
10方俊杰.基于地面激光扫描仪的隧道断面提取研究[J].测绘与空间地理信息,2021,44(2):212-214. 被引量：4

电脑知识与技术

2021年第4期

浏览历史

内容加载中请稍等...

基于PPO的机械臂控制研究方法被引量：1

参考文献2

二级参考文献22

共引文献486

同被引文献5

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于PPO的机械臂控制研究方法 被引量：1

参考文献2

二级参考文献22

共引文献486

同被引文献5

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于PPO的机械臂控制研究方法被引量：1