基于触觉传感器和强化学习内在奖励的机械臂抓取方法被引量：2

The method for manipulator grasping based on tactile sensor and reinforcement learning intrinsic reward

下载PDF

导出

摘要触觉在机器人抓取过程中扮演着重要的角色,但在大多数强化学习任务中,触觉仅被用于拓展状态空间,其提供的位置和压力等信息很少被完全利用.针对该问题,同时受内在奖励机制启发,首先设计了一种“倒T”形传感器阵列布局;然后基于这种传感器阵列提出了新的内在激励方法,该方法根据机械臂末端与物体接触位置的不同,给予不同的重视程度,鼓励智能体以更有效的姿态来夹取物体;最后将该方法在仿真环境中进行测试,结果表明该方法在夹取椭球和圆球物体任务中收敛速度比最新的基准方法平均提高了约20%. Although play an important role in the process of the robot grasping,haptics is only used to extend the state space,and the information provided by it,such as position and pressure,is rarely fully utilized in most reinforcement tasks.Inspired by the intrinsic reward mechanism,an intrinsic incentive method based on the“inverted T”array sensor is proposed.According to the position where the end effector of the robot touches the object,the method gives degrees of importance,and encourages the agent to achieve the goal with a more effective posture.Finally,the method was tested in the simulation environment,and the results showed that the speed of convergence of the method in the task gripping ellipsoid objects was about 20%faster than the latest benchmark method.

作者宋相兵季玉龙俎文强何扬杨红雨 SONG Xiang-Bing;JI Yu-Long;ZU Wen-Qiang;HE Yang;YANG Hong-Yu(National Key Laboratory of Fundamental Science on Synthetic Vision,Sichuan University,Chengdu 610065,China;School of Aeronautics and Astronautics,Sichuan University,Chengdu 610065,China;College of Computer Science,Sichuan University,Chengdu 610065,China)

机构地区四川大学视觉合成图形图像技术国防重点学科实验室四川大学空天科学与工程学院四川大学计算机学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2022年第3期53-62,共10页 Journal of Sichuan University(Natural Science Edition)

基金国家自然科学基金重点项目(U20A20161)。

关键词深度强化学习机械臂抓取触觉内在奖励 Deep reinforcement learning Robot arm Grasping Haptics Intrinsic reward

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：439

二级参考文献8

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：26
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：595
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：592
6傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
7黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
8杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28

共引文献438

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：35
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：37
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
6李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
7刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
8蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
9甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：8
10梁明兰,王峥,陈名松.基于可重构阵列架构的强化学习计算引擎[J].集成技术,2018,7(6):19-30.

同被引文献11

1马倩倩,李晓娟,施智平.轻量级卷积神经网络的机器人抓取检测研究[J].计算机工程与应用,2020,56(10):141-148. 被引量：11
2余玉琴,魏国亮,王永雄.基于改进YOLOv2的无标定3D机械臂自主抓取方法[J].计算机应用研究,2020,37(5):1450-1455. 被引量：12
3王勇,陈荟西.基于三流联合卷积神经网络的机械臂抓取检测[J].小型微型计算机系统,2020,41(5):1112-1116. 被引量：7
4薛腾,刘文海,潘震宇,王伟明.基于视觉感知和触觉先验知识学习的机器人稳定抓取[J].机器人,2021,43(1):1-8. 被引量：11
5杨硕,王秀,高原源,陈立平,翟长远,窦汉杰.玉米精密播种粒距在线监测与漏播预警系统研究[J].农业机械学报,2021,52(3):17-24. 被引量：17
6王斌,何坤,王丹.基于图像多尺度分解的前景提取[J].四川大学学报（自然科学版）,2021,58(3):45-52. 被引量：4
7刘树峰,张广玲,李光提,吕钊钦.马铃薯播种漏播检测自动补种装置设计与试验[J].农机化研究,2022,44(3):78-83. 被引量：6
8文闻,周元子,周晓东,陶东.基于深度强化学习的空间机械臂柔顺捕获控制方法研究[J].空间控制技术与应用,2022,48(1):1-8. 被引量：4
9汪洋,王黎明,薛毓铨,韩力春.基于改进SIFT算法的机械臂识别抓取研究[J].机床与液压,2022,50(16):63-66. 被引量：2
10王校峰,王建文,曹鹏勇,杨云茂.机器视觉主导的机械臂动态抓取策略研究[J].机床与液压,2022,50(17):38-42. 被引量：6

引证文献2

1韩玉婷.基于位移传感器的玉米播种机漏取种检测方法[J].现代农机,2023(4):63-66.
2陈烨明,曾莹莹.多项式型非自治迭代方程的凹凸解[J].四川大学学报（自然科学版）,2023,60(4):33-38.

1无.健全我国废旧锂离子电池回收利用支撑体系[J].前进论坛,2022(6):26-26.
2夏春亭.论青年马克思主义者培养过程中激励教育功能的有效发挥[J].吉林教育,2022(2):74-76.
3刘波.新媒体时代政府科学传播研究[J].传播与版权,2022(6):100-102. 被引量：2
4成珊珊.加强高职院校基金会治理的策略[J].江苏经贸职业技术学院学报,2022(4):22-25.
5熊中敏,舒贵文,郭怀宇.融合用户偏好的图神经网络推荐模型[J].计算机科学,2022,49(6):165-171. 被引量：2
6赵建海,屈小爽.赛教融合提升电信类大学生创新能力研究[J].创新创业理论研究与实践,2022,5(6):100-102. 被引量：3
7张晋,唐进,尹建芹.面向人体动作预测的对称残差网络[J].机器人,2022,44(3):291-298.
8梁骁,黄文明,姚俊,温雅媛,邓珍荣.结合多注意力和条件变分自编码器的宋词生成模型[J].广西科学,2022,29(2):308-315. 被引量：1
9钱龙,赵静,韩京宇,毛毅.基于标签相关性的K近邻多标签学习[J].计算机工程,2022,48(6):73-78. 被引量：2
10樊瑞芬,裴志强.浅谈地方供电公司标准化管理提升建设[J].中国标准化,2022(9):163-167.

四川大学学报（自然科学版）

2022年第3期

浏览历史

内容加载中请稍等...

基于触觉传感器和强化学习内在奖励的机械臂抓取方法被引量：2

参考文献1

二级参考文献8

共引文献438

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于触觉传感器和强化学习内在奖励的机械臂抓取方法 被引量：2

参考文献1

二级参考文献8

共引文献438

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于触觉传感器和强化学习内在奖励的机械臂抓取方法被引量：2