期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于DE-MADDPG多智能体强化学习机械臂装配
1
作者 王晶 苏工兵 +2 位作者 袁梦 曾文豪 于楚飞 《组合机床与自动化加工技术》 北大核心 2023年第12期183-187,192,共6页
为了提高机械臂在复杂装配任务中智能程度,提出了一种基于深度强化学习的多智能体装配策略。以六自由度机械臂Pieper准则构型为基础,将末端的位置和姿态分开独立控制,应用解耦多智能体深度确定性策略梯度算法(DE-MADDPG),依据其不同的... 为了提高机械臂在复杂装配任务中智能程度,提出了一种基于深度强化学习的多智能体装配策略。以六自由度机械臂Pieper准则构型为基础,将末端的位置和姿态分开独立控制,应用解耦多智能体深度确定性策略梯度算法(DE-MADDPG),依据其不同的结构装配特性设计了全局奖励函数和局部奖励函数,并在Gezebo仿真平台上进行了圆孔和方孔装配的仿真实验,同时对DDPG算法和MADDPG算法进行对比实验。结果表明DE-MADDPG算法比DDPG提升了13.2%的装配效率,比MADDPG装配更加稳定。通过搭建装配实验平台,验证了该算法在实体装配过程中具有可行性和较强的泛化能力。 展开更多
关键词 深度强化学习 de-maddpg 轴孔装配 奖励函数
下载PDF
基于DE-MADDPG的多无人机协同追捕策略 被引量:23
2
作者 符小卫 王辉 徐哲 《航空学报》 EI CAS CSCD 北大核心 2022年第5期522-535,共14页
针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,... 针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,训练后的多无人机能够有效地执行协同追捕任务。通过设置快速目标的多种逃逸控制策略,仿真验证了所设计的方法能够利用追捕无人机的数量优势,通过协作完成对快速目标的协同围捕,并且通过比较,验证本文所提出的算法相比MADDPG算法更快地取得了收敛效果。 展开更多
关键词 多无人机 协同追捕 de-maddpg 多智能体强化学习 对抗策略
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部