基于目标的域随机化方法在机器人操作方面的研究被引量：3

Research on goal-based domain randomization method in robot manipulation

下载PDF

导出

摘要使用强化学习解决机器人操作问题有着诸多优势,然而传统的强化学习算法面临着奖励稀疏的困难,且得到的策略难以直接应用到现实环境中。为了提高策略从仿真到现实迁移的成功率,提出了基于目标的域随机化方法。使用基于目标的强化学习算法对模型进行训练,可以有效地应对机器人操作任务奖励稀疏的情况,得到的策略可以在仿真环境下良好运行。与此同时在算法中还使用了目标驱动的域随机化方法,在提高策略泛用性以及克服仿真和现实环境之间的差距上有着良好的效果,仿真环境下的策略容易迁移到现实环境中并成功执行。结果表明,使用了基于目标的域随机化方法的强化学习算法有助于提高策略从仿真到现实迁移的成功率。 Reinforcement learning method has many advantages in solving the robot manipulation problems.However,the traditional reinforcement learning algorithms face the difficulty of sparse reward,and the policy is difficult to be directly applied to the reality.In order to improve the success rate of policy migration from simulation to reality,this paper proposed a goal-based domain randomization method.The method used the goal-based reinforcement learning algorithm to train the model,which could effectively deal with the sparse reward of robot manipulation tasks,and the policy could run well in the simulation environment.At the same time,the method used the goal-conditioned domain randomization algorithm,which had a good performance on improving the universality of policy and overcoming the reality gap between simulation and reality.The policy in simulation is easy to migrate to reality and execute successfully.The results show that the reinforcement learning algorithm using the goal-based domain randomization method helps to improve the success rate of policy migration from simulation to reality.

作者张夏禹陈小平 Zhang Xiayu;Chen Xiaoping(University of Science&Technology of China,Hefei 230026,China)

机构地区中国科学技术大学

出处《计算机应用研究》 CSCD 北大核心 2022年第10期3084-3088,共5页 Application Research of Computers

基金国家重点研发计划资助项目(2019YFE0125200)。

关键词强化学习域随机化机器人操作仿真到现实迁移 reinforcement learning domain randomization robot manipulation sim-to-real

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1吴璞,夏长林,景鸿翔.UR5机器人运动学分析与轨迹规划研究[J].煤矿机械,2021,42(4):55-58. 被引量：2

二级参考文献5

1宋涛,王乐炯,杨丽萍.四自由度串联机器人运动学仿真分析[J].煤矿机械,2017,38(1):43-45. 被引量：9
2张付祥,赵阳.UR5机器人运动学及奇异性分析[J].河北科技大学学报,2019,40(1):51-59. 被引量：20
3杨鑫科,吴娟,李琳.矿用巡检机械臂运动学及工作空间分析[J].煤矿机械,2019,40(9):88-91. 被引量：2
4郑承谱,韩康,鲍佳蕾,温伟刚,孙恺.基于SolidWorks与MATLAB六轴机械臂动力学仿真研究[J].煤矿机械,2020,41(4):171-173. 被引量：7
5梁春苗,姚宁平,彭光宇,李坤.煤矿井下瓦斯抽采钻孔机器人钻臂运动学研究[J].煤矿机械,2021,42(1):30-33. 被引量：7

共引文献1

1庞党锋,崔世钢,张永立.装配生产线机器人螺丝锁紧工作站设计[J].国外电子测量技术,2022,41(3):114-118. 被引量：1

同被引文献31

1陈静,王虹,袁冠杰,程田莉.基于卡尔曼滤波的多传感器时间配准方法[J].微波学报,2021,37(S01):237-240. 被引量：2
2张德龙,李威凌,吴怀宇,陈洋.基于学习机制的移动机器人动态场景自适应导航方法[J].信息与控制,2016,45(5):521-529. 被引量：7
3吴炳龙,曲道奎,徐方.基于力/位混合控制的工业机器人精密轴孔装配[J].浙江大学学报（工学版）,2018,52(2):379-386. 被引量：21
4徐风尧,王恒升.移动机器人导航中的楼道场景语义分割[J].计算机应用研究,2018,35(6):1863-1866. 被引量：10
5胡瑞钦,隆昌宇,张立建.视觉与力觉结合的卫星部件机器人装配[J].光学精密工程,2018,26(10):2504-2515. 被引量：13
6于建均,姚红柯,左国玉,阮晓钢,安硕.基于动态系统的机器人模仿学习方法研究[J].智能系统学报,2019,14(5):1026-1034. 被引量：4
7成天佑,林艳萍,马晓军.一种视触觉引导的超声探头自动定位方法[J].西安电子科技大学学报,2020,47(1):80-87. 被引量：6
8陈争光,唐永生,关海鸥,许楠,刘金明,王雪,费丽君.专业学位算法设计与分析课程案例库建设与实践[J].高师理科学刊,2021,41(4):102-105. 被引量：2
9胡成纬,江爱文,王明文.基于场景图知识融入与元学习的视觉语言导航[J].山西大学学报（自然科学版）,2021,44(3):420-427. 被引量：1
10袁浩,刘紫燕,梁静,梁水波,孙昊堃.融合LSTM的深度强化学习视觉导航[J].无线电工程,2022,52(1):161-167. 被引量：7

引证文献3

1张秋菊,吕青.机器人多模态智能操作技术研究综述[J].计算机科学与探索,2023,17(4):792-809. 被引量：3
2何丽,姚佳程,廖雨鑫,张文智,卢赵清,袁亮,肖文东.深度强化学习求解移动机器人端到端导航问题的研究综述[J].计算机工程与应用,2024,60(14):1-13.
3朱小亮,张涛,孙华,张艳芳.硕士课程“算法设计与分析”案例教学探究——以圆周率计算问题之割圆随机化方法研究为例[J].教育教学论坛,2024(29):125-128.

二级引证文献3

1黄新胜.面向智能制造的机器人与数控技术分析[J].今日自动化,2023(11):45-47.
2郭廷山.面向产线的智能机器人柔性生产远程维护系统研发[J].今日制造与升级,2024(5):127-129.
3林杰,楚中毅,任芸丹.基于深度强化学习微小软排线装配技术的研究[J].机床与液压,2024,52(14):89-93.

1孔凡武,康小文,张威,纪天蓉.问题导向教学在肾内科住院医师规范化培训中的运用与探索[J].中国继续医学教育,2022,14(16):98-101. 被引量：5

计算机应用研究

2022年第10期

浏览历史

内容加载中请稍等...

基于目标的域随机化方法在机器人操作方面的研究被引量：3

参考文献1

二级参考文献5

共引文献1

同被引文献31

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于目标的域随机化方法在机器人操作方面的研究 被引量：3

参考文献1

二级参考文献5

共引文献1

同被引文献31

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于目标的域随机化方法在机器人操作方面的研究被引量：3