-
题名基于深度强化学习的二连杆机械臂运动控制方法
被引量:18
- 1
-
-
作者
王建平
王刚
毛晓彬
马恩琪
-
机构
西安理工大学机械与精密仪器工程学院
-
出处
《计算机应用》
CSCD
北大核心
2021年第6期1799-1804,共6页
-
文摘
针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。
-
关键词
深度强化学习
二连杆机械臂
运动控制
奖罚机制
深度确定性策略梯度算法
-
Keywords
deep reinforcement learning
two-link manipulator
motion control
reward and punishment mechanism
Deep Deterministic Policy Gradient(DDPG)algorithm
-
分类号
TP241.2
[自动化与计算机技术—检测技术与自动化装置]
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名针对二连杆机械臂控制的DDPG算法研究
被引量:1
- 2
-
-
作者
陈奎烨
葛群峰
高兴波
陈路
-
机构
宁波大学信息科学与工程学院
-
出处
《无线通信技术》
2021年第3期17-22,共6页
-
文摘
深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)在连续控制问题中具有良好的表现。针对二连杆机械臂的运动控制问题,提出了一种基于深度确定性策略梯度算法的控制方法。为了提升模型的收敛速度,结合了多目标学习的方法,使机械臂可以从已到达的位置获取奖励,同时还改进了DDPG算法的经验回放机制,根据样本的重要性程度分类存储,网络模型训练时优先选择重要性程度高的样本。实验结果表明,结合多目标学习方法和分类经验回放方法的DDPG算法具有更好的性能。
-
关键词
深度确定性策略梯度算法
二连杆机械臂
经验回放
多目标学习
-
Keywords
deep deterministic policy gradient
two-linked robotic arm
experience replay
multi-goal learning
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名一种无学习的二连杆机械臂定位控制策略
- 3
-
-
作者
蒋祝鹏
闫悦
-
机构
北京信息科技大学
-
出处
《智能制造》
2022年第1期60-63,共4页
-
基金
北京信息科技大学2021年大学生创新创业训练计划项目资助(5102110805)。
-
文摘
二连杆机械臂的运动控制算法在工业上有广泛的应用,本文提出了一种无学习的控制策略。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物;然后,根据环境模型的目标设置、状态变量来建立测试数据,实现机械臂的运动控制,最后通过误差补正的控制策略改善机械臂任务的准确性及稳定性。与基于学习的二连杆机械臂控制算法相比,本文提出的无学习控制策略能在完成基本的定位抓取任务的前提下,节省大量的数据采集与模型训练时间。实验结果表明,相较于传统控制方法,所提二连杆机械臂控制方法效率更高,成本更低,适用性更强。
-
关键词
二连杆机械臂
目标位置
仿真
无学习
误差补正
-
分类号
TP241
[自动化与计算机技术—检测技术与自动化装置]
-