-
题名基于DE-MADDPG多智能体强化学习机械臂装配
- 1
-
-
作者
王晶
苏工兵
袁梦
曾文豪
于楚飞
-
机构
武汉纺织大学机械工程与自动化学院
武汉纺织大学湖北省数字纺织装备重点实验室
-
出处
《组合机床与自动化加工技术》
北大核心
2023年第12期183-187,192,共6页
-
基金
国家自然科学基金项目(51375351)
湖北省数字化纺织装备重点实验室开放基金项目(KDTL2022011)
湖北省科技专项项目(2019AEE011)。
-
文摘
为了提高机械臂在复杂装配任务中智能程度,提出了一种基于深度强化学习的多智能体装配策略。以六自由度机械臂Pieper准则构型为基础,将末端的位置和姿态分开独立控制,应用解耦多智能体深度确定性策略梯度算法(DE-MADDPG),依据其不同的结构装配特性设计了全局奖励函数和局部奖励函数,并在Gezebo仿真平台上进行了圆孔和方孔装配的仿真实验,同时对DDPG算法和MADDPG算法进行对比实验。结果表明DE-MADDPG算法比DDPG提升了13.2%的装配效率,比MADDPG装配更加稳定。通过搭建装配实验平台,验证了该算法在实体装配过程中具有可行性和较强的泛化能力。
-
关键词
深度强化学习
de-maddpg
轴孔装配
奖励函数
-
Keywords
deep reinforcement learning
de-maddpg
axial hole assembly
reward function
-
分类号
TH112
[机械工程—机械设计及理论]
TG506
[金属学及工艺—金属切削加工及机床]
-
-
题名基于DE-MADDPG的多无人机协同追捕策略
被引量:23
- 2
-
-
作者
符小卫
王辉
徐哲
-
机构
西北工业大学电子信息学院
-
出处
《航空学报》
EI
CAS
CSCD
北大核心
2022年第5期522-535,共14页
-
基金
航空科学基金(202023053001)。
-
文摘
针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,训练后的多无人机能够有效地执行协同追捕任务。通过设置快速目标的多种逃逸控制策略,仿真验证了所设计的方法能够利用追捕无人机的数量优势,通过协作完成对快速目标的协同围捕,并且通过比较,验证本文所提出的算法相比MADDPG算法更快地取得了收敛效果。
-
关键词
多无人机
协同追捕
de-maddpg
多智能体强化学习
对抗策略
-
Keywords
multi-UAVs
cooperative pursuit
de-maddpg
multi-agent deep reinforcement learning
confront strategy
-
分类号
V279
[航空宇航科学与技术—飞行器设计]
-