基于元Q学习与DDPG的机械臂接近技能学习方法被引量：2

A reaching skill learning method of manipulators based on meta-Q-learning and DDPG

下载PDF

导出

摘要针对深度强化学习方法在机械臂的接近技能学习中普遍存在的样本效率低、泛化性差的问题,提出一种基于元Q学习的技能学习方法。首先利用结合后视经验回放(Hindsight Experience Replay, HER)的DDPG训练机械臂以指定姿态到达目标点,验证了算法在接近任务中的有效性;其次,在相关任务集上构造多任务目标作为优化对象,利用结合HER的DDPG训练模型,得到泛化性强的元训练模型和元训练数据,此外利用GRU获取轨迹上下文变量;最后,先在新任务上进行少量训练,再利用元训练数据训练模型进一步提升性能。仿真实验表明,在初始性能、学习速率和收敛性能三方面元Q学习均带来明显提升,其中达到期望性能所需样本量降低77%,平均成功率提高15%。 Since the deep reinforcement learning methods that manipulators employ to learning reaching skills perform at low sample efficiency and poor generalization, a skill learning method based on the meta-Q learning is proposed. First, the deep deterministic policy gradient(DDPG) combined with the hindsight experience replay(HER) is used to train a manipulator to reach the target point with a specified attitude. It verifies the effectiveness of the algorithm in reaching tasks. Second, a multi-task objective is constructed on the relevant task set and designated as the optimization object. DDPG combined with HER is used to train the model and obtain meta-training data and a meta-training model with strong generalization. GRU is also used to obtain trajectory context variables. Finally, a small amount of training is performed on the new task, and then the meta-training data are used to train the model to further improve the performance. Simulation experiments show that the meta-Q-learning brings significant improvements in the initial performance, learning rate and convergence performance. The sample size required to achieve the desired performance is reduced by 77%, and the average success rate is increased by 15%.

作者李茂捷徐国政高翔谭彩铭 LI Maojie;XU Guozheng;GAO Xiang;TAN Caiming(College of Automation&College of Artificial Intelligence,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;Robotics Information Sensing and Control Institute,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学自动化学院、人工智能学院南京邮电大学机器人信息感知与控制研究所

出处《南京邮电大学学报（自然科学版）》北大核心 2023年第1期96-103,共8页 Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition

基金江苏省自然科学基金(BK20210599) 江苏省高等学校自然科学研究项目(20KJB510023)资助项目。

关键词机器人学习元强化学习深度确定性策略梯度元Q学习样本效率 robot learning meta reinforcement learning deep deterministic policy gradient(DDPG) meta-Q-learning sample efficiency

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1谭晓阳,张哲.元强化学习综述[J].南京航空航天大学学报,2021,53(5):653-663. 被引量：7

共引文献6

1张玉,尚志华,郭晓楠,黄福玉,刘毅志.小样本图像分类中的类别信息融合网络[J].南京航空航天大学学报,2022,54(4):715-722. 被引量：1
2闫超,相晓嘉,徐昕,王菖,周晗,沈林成.多智能体深度强化学习及其可扩展性与可迁移性研究综述[J].控制与决策,2022,37(12):3083-3102. 被引量：13
3赵春宇,赖俊.元强化学习综述[J].计算机应用研究,2023,40(1):1-10. 被引量：3
4唐斯琪,潘志松,胡谷雨,吴炀,李云波.深度强化学习在天基信息网络中的应用——现状与前景[J].系统工程与电子技术,2023,45(3):886-901. 被引量：3
5李霞丽,王昭琦,刘博,吴立成.麻将博弈AI构建方法综述[J].智能系统学报,2023,18(6):1143-1155. 被引量：2
6陈奕宇,霍静,丁天雨,高阳.元强化学习研究综述[J].软件学报,2024,35(4):1618-1650.

同被引文献25

1汪坤,张国良,张自杰,王艺成.基于IMU的机械臂末端执行器姿态优化[J].电子测量技术,2023,46(1):72-77. 被引量：3
2黄宇,张伟婷,金秀章,杨凯,武蕊.SCR脱硝系统的线性自抗扰串级控制研究[J].中国电机工程学报,2018,38(18):5518-5526. 被引量：33
3李健,谭文,张彬文.SCR烟气脱硝系统线性自抗扰控制研究[J].动力工程学报,2019,39(3):203-207. 被引量：18
4罗志浩,孙坚栋,陶成飞,周昊.基于改进DMC算法的烟气脱硝控制仿真[J].热力发电,2019,48(6):34-39. 被引量：12
5侯鹏飞,贾新春,白建云,王琦.SCR烟气脱硝系统多模切换DMC-PID串级预测控制[J].控制工程,2020,27(2):355-360. 被引量：17
6徐煜,赫雷,周克栋.自动充电机械臂运动学分析与样机试验[J].组合机床与自动化加工技术,2020(5):40-44. 被引量：4
7白云飞,张奇峰,范云龙,翟新宝,田启岩,唐元贵,张艾群.基于能耗优化的深海电动机械臂轨迹规划[J].机器人,2020,42(3):301-308. 被引量：21
8邢波涛,乔源,赵文杰.基于改进NARX-DMC的SCR脱硝控制策略[J].华北电力大学学报（自然科学版）,2020,47(6):83-90. 被引量：9
9刘崇伟,高雪官,周裕东.刚柔结合的充电机械臂设计[J].机械设计与研究,2021,37(3):33-37. 被引量：6
10徐建明,胡弘历.电动汽车充电操作机器人的视觉系统设计[J].浙江工业大学学报,2021,49(4):384-391. 被引量：4

引证文献2

1郑东.刚柔结合充电机械臂设计研究[J].造纸装备及材料,2023,52(4):37-39. 被引量：1
2赵征,刘子涵.基于深度强化学习的SCR脱硝系统协同控制策略研究[J].动力工程学报,2024,44(5):802-809. 被引量：5

二级引证文献6

1吴海琪.基于刚柔结合式机械臂的位置控制研究[J].电子制作,2024,32(16):66-68.
2刘九洲,谭文,张威.含沙飞灰对脱硝系统安全影响的技术分析与对策[J].中国设备工程,2024(19):142-143.
3曾水林.自优化前馈数据库模型在烟气治理领域的应用[J].设备管理与维修,2024(19):50-53.
4杨路生.火电厂1000 MW机组设备尿素热水解制氨系统模拟优化分析[J].自动化应用,2024,65(19):69-71.
5赵征,全家乐,刘子涵.基于改进深度强化学习的SCR脱硝系统复合控制研究[J].电力科学与工程,2024,40(11):70-78.
6高鹏,崔晓波,王玮,梁小虎,张力.基于改进串级策略的脱硝优化控制方法研究[J].机电信息,2024(24):14-17.

1蔡德兴.基于核心素养下的初中数学教学关键问题解决的实践研究[J].数学学习与研究,2022(34):71-73. 被引量：1
2郭玉帆,沈世全,刘冠颖,古鸿吉,高顺.加权双Q学习算法优化的PHEV能量管理策略研究[J].重庆理工大学学报（自然科学）,2023,37(2):86-96. 被引量：2
3戚荣辉,马岷,梁均浩.360°自由视角环绕拍摄系统技术在北京冬奥会中的运用[J].广播电视信息,2023,30(2):72-75. 被引量：2
4孙振华.“互联网+”模式下小学数学教学探析[J].中国科技经济新闻数据库教育,2023(1):139-141.
5佘宗明.六问ChatGPT:当AI“成精”[J].服务外包,2023(3):22-25.
6王潇,李永强,许雪冬,曲娜.基于强化学习的飞机发动机健康维护[J].沈阳航空航天大学学报,2022,39(6):80-86.
7巩海岩.大数据时代人工智能的法律风险及其防范研究[J].中文科技期刊数据库（全文版）社会科学,2022(12):50-53.
8吴健发,魏春岭,张海博.航天器反应式碎片规避动作规划方法[J].宇航学报,2023,44(2):221-232. 被引量：6
9夏云芝,王书林,范晓萱,耿艺璇,唐潇,邓贤君.基于Q学习的无线传感网自适应容侵覆盖优化方法[J].华中科技大学学报（自然科学版）,2023,51(2):25-31. 被引量：3
10徐烨.广西文旅产业如何拥抱元宇宙[J].合作经济与科技,2023(7):34-36. 被引量：2

南京邮电大学学报（自然科学版）

2023年第1期

浏览历史

内容加载中请稍等...

基于元Q学习与DDPG的机械臂接近技能学习方法被引量：2

参考文献1

共引文献6

同被引文献25

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于元Q学习与DDPG的机械臂接近技能学习方法 被引量：2

参考文献1

共引文献6

同被引文献25

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于元Q学习与DDPG的机械臂接近技能学习方法被引量：2