基于元生成内在奖励的机器人操作技能学习方法被引量：1

A Meta Generactive Instinsic Reward Based Robot Manipulation Skill Learning

下载PDF

导出

摘要针对稀疏奖励下,复杂任务学习效率低的问题,在离线策略(off-policy)强化学习思想基础上,提出了元生成内在奖励算法(meta generative intrinsic reward, MGIR),并将其应用在机器人操作技能学习问题求解方面。具体步骤为先使用一个可将复杂任务分解为多个子任务的元生成内在奖励框架,对子任务进行能力评价;再引入生成内在奖励模块,将智能体探索得到状态的新颖性作为内在奖励,并联合环境奖励共同指导智能体完成对环境的探索和特定任务的学习;最后,在MuJoCo仿真环境Fetch中对离线策略强化学习进行对比实验。实验结果表明,无论是在训练效率还是在成功率方面,提出的元生成内在奖励算法均表现较好。 To address the problem of low learning efficiency for complex tasks under sparse rewards,a meta generative intrinsic reward(MGIR)algorithm was proposed based on the idea of off policy reinforcement learning.And it has been applied to the problem solving of robot operation skills learning.The specific steps were to first use a meta generated intrinsic reward framework that can decompose complex tasks into multiple subtasks,and evaluated the ability of subtasks.Then,an internal reward module was introduced to generate the novelty of the state explored by the agent as an internal reward.And jointly guided intelligent agents to explore the environment and learn specific tasks through environmental rewards.Finally,comparative experiments were conducted on offline strategy reinforcement learning in the MuJoCo simulation environment Fetch.The experimental results showed that the proposed meta-generated intrinsic reward algorithm performs better both in terms of training efficiency and success rate.

作者吴培良渠有源李瑶陈雯柏高国伟 WU Pei-liang;QU You-yuan;LI Yao;CHEN Wen-bai;GAO Guo-wei(School of Information science and Engineering,Yanshan University,Qinhuangdao,Heibei 066004,China;The Key Laboratory for Computer Virtual Technology and System Integration of Hebei Province,Qinhuangdao,Hebei 066004,China;School of Automation,Beijing Information Science and Technology University,Beijing 100192,China)

机构地区燕山大学信息科学与工程学院河北省计算机虚拟技术与系统集成重点实验室北京信息科技大学自动化学院

出处《计量学报》 CSCD 北大核心 2023年第6期923-930,共8页 Acta Metrologica Sinica

基金国家重点研发计划(2018YFB1308300) 国家自然科学基金(62276028,U20A20167) 北京市自然科学基金(4202026) 河北省自然科学基金(F202103079) 河北省创新能力提升计划(22567626H)。

关键词计量学机器人操作技能学习稀疏奖励强化学习元学习生成内在奖励 metrology robot operation skills learning sparse reward reinforcement learning meta learning generative intrinsic reward

分类号 TB93 [机械工程—测试计量技术及仪器] TB973 [机械工程—测试计量技术及仪器]

引文网络
相关文献

参考文献1

1吴培良,刘瑞军,李瑶,陈雯柏,高国伟.一种基于生成对抗网络与模型泛化的机器人推抓技能学习方法[J].仪器仪表学报,2022,43(5):244-253. 被引量：3

二级参考文献3

1李秀智,李家豪,张祥银,彭小彬.基于深度学习的机器人最优抓取姿态检测方法[J].仪器仪表学报,2020(5):108-117. 被引量：30
2卢笑,曹意宏,周炫余,王耀南.基于深度强化学习的两阶段显著性目标检测[J].电子测量与仪器学报,2021,35(6):34-42. 被引量：17
3葛俊彦,史金龙,周志强,王直,钱强.基于三维检测网络的机器人抓取方法[J].仪器仪表学报,2021,42(8):146-153. 被引量：14

共引文献2

1石瑞,杨立东,郭勇,牛大伟,张丹丹.基于生成对抗网络的车载语音增强应用[J].国外电子测量技术,2023,42(2):151-156. 被引量：1
2张秋菊,吕青.机器人多模态智能操作技术研究综述[J].计算机科学与探索,2023,17(4):792-809. 被引量：2

同被引文献17

1黄兆基,高军礼,唐兆年,宋海涛,郭靖.基于注意力机制和视触融合的机器人抓取滑动检测[J].信息与控制,2024,53(2):191-198. 被引量：1
2刘洋,孙恺.协作机器人的研究现状与与技术发展分析[J].北方工业大学学报,2017,29(2):76-85. 被引量：17
3柯显信,张文朕,杨阳,温雷.仿人机器人多传感器定位系统[J].浙江大学学报（工学版）,2018,52(7):1247-1252. 被引量：9
4桑海峰,田秋洋.面向人机交互的快速人体动作识别系统[J].计算机工程与应用,2019,55(6):101-107. 被引量：20
5秦方博,徐德.机器人操作技能模型综述[J].自动化学报,2019,45(8):1401-1418. 被引量：24
6张秀丽,韩春燕.协作机器人触觉传感装置的设计与碰撞实验[J].北京交通大学学报,2019,43(4):88-95. 被引量：6
7刘建宇,范平清.基于改进的RRT^(*)-connect算法机械臂路径规划[J].计算机工程与应用,2021,57(6):274-278. 被引量：22
8周鹏云.遨博智能:做强中国协作机器人[J].中关村,2021(4):58-59. 被引量：2
9李丁丁,石秀敏,邓三鹏,祁宇明,陈伟,周裔扬,周旺发.协作机器人产业技术与发展趋势综述[J].装备制造技术,2021(8):73-76. 被引量：4
10黄海丰,刘培森,李擎,于欣波.协作机器人智能控制与人机交互研究综述[J].工程科学学报,2022,44(4):780-791. 被引量：16

引证文献1

1范玫杉,刘嘉,马伟佳.协作机器人技术与产业分析[J].科技和产业,2024,24(11):282-288.

1孙文绮,李大鹏,田峰,丁良辉.基于平均场内生奖励的多智能体强化学习算法[J].无线电通信技术,2023,49(3):556-565.
2滕玥(整理).趣闻[J].环境经济,2023(8):8-9.
3李艳燕.生成式人工智能教育应用的价值与潜在风险[J].中小学数字化教学,2023(7):1-1. 被引量：2
4黄卫平.“大概念”统摄下初中历史跨学科主题学习的设计与实施[J].课程教学研究,2023(2):31-38. 被引量：4
5何向繁.Axios和Fetch数据传输效率分析[J].江西通信科技,2023(2):27-28. 被引量：1
6戴嘉伟,熊智,晁丽君,杨闯.基于STDP奖励调节的类脑面向目标导航[J].导航定位与授时,2023,10(2):47-56. 被引量：1
7郭婉莹,冉红霞.计算机视觉中场景理解的专利技术分析[J].中国科技信息,2023(13):49-52. 被引量：1
8罗会兰,叶桔.联合语义分割和深度估计的多任务学习研究[J].计算机科学,2023,50(S01):171-180.
9左桂芳.事业单位专项资金管理探讨[J].现代营销（信息版）,2023(5):25-27.
10周治国,邸顺帆,冯新.语义信息增强的3D激光SLAM技术进展[J].仪器仪表学报,2023,44(3):209-220. 被引量：4

计量学报

2023年第6期

浏览历史

内容加载中请稍等...

基于元生成内在奖励的机器人操作技能学习方法被引量：1

参考文献1

二级参考文献3

共引文献2

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于元生成内在奖励的机器人操作技能学习方法 被引量：1

参考文献1

二级参考文献3

共引文献2

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于元生成内在奖励的机器人操作技能学习方法被引量：1