面向轨迹规划的深度强化学习奖励函数设计被引量：9

Design of Reward Function in Deep Reinforcement Learning for Trajectory Planning

下载PDF

导出

摘要现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。 For the trajectory planning of robot manipulator in unknown environments,current deep reinforcement learning based methods often suffer from the low learning efficiency and low robustness of planning strategy.To overcome the problems above,a novel azimuth reward function based trajectory planning method called A-DPPO is proposed.A novel azimuth reward function based on relative orientation and relative position is designed to reduce the invalid explorations and improve the learning efficiency.Moreover,it is the first time that Distributed Proximal Policy Optimization(DPPO)is applied to the trajectory planning for robot manipulator to improve the robustness of planning strategy.Experimental results show that the proposed A-DPPO method can increase the learning efficiency,compared to the state-of-the-art methods,and improve the robustness of planning strategy greatly.

作者李跃邵振洲赵振东施智平关永 LI Yue;SHAO Zhenzhou;ZHAO Zhendong;SHI Zhiping;GUAN Yong(College of Information Engineering,Capital Normal University,Beijing 100048,China;Beijing Key Laboratory of Light Industrial Robot and Safety Verification,Capital Normal University,Beijing 100048,China;Beijing Advanced Innovation Center for Imaging Technology,Capital Normal University,Beijing 100048,China)

机构地区首都师范大学信息工程学院首都师范大学轻型工业机械臂与安全验证北京市重点实验室首都师范大学成像技术北京市高精尖创新中心

出处《计算机工程与应用》 CSCD 北大核心 2020年第2期226-232,共7页 Computer Engineering and Applications

基金国家自然科学基金（No.61702348,No.61772351,No.61602326,No.61602324）国家重点研发计划（No.2017YFB1303000,No.2017YFB1302800）北京市科委项目（No.LJ201607）北京市教委科研计划一般项目（No.KM201710028017）科技创新服务能力建设-基本科研业务费（科研类）（No.025185305000）首都师范大学青年科研创新团队

关键词深度强化学习机械臂轨迹规划方位奖励函数 deep reinforcement learning robot manipulator trajectory planning azimuth reward function

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1李黎,尚俊云,冯艳丽,淮亚文.关节型工业机器人轨迹规划研究综述[J].计算机工程与应用,2018,54(5):36-50. 被引量：103
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：472

二级参考文献46

1郭彤颖,曲道奎.一种基于遗传算法的机器人加工路径规划方法[J].华中科技大学学报（自然科学版）,2004,32(S1):123-125. 被引量：5
2孙斌,常晓明,段晋军.基于四元数的机械臂平滑姿态规划与仿真[J].机械科学与技术,2015,34(1):56-59. 被引量：15
3Chelmsford,Mass,杨进录.如何使机械运动部件控制最佳[J].电子工业专用设备,2005,34(3):25-27. 被引量：7
4魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
5靳保,付宜利,王树国,曹政才.未知环境下机器人实时模糊路径规划方法[J].哈尔滨工业大学学报,2005,37(10):1315-1317. 被引量：7
6高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
7程永伦,朱世强,罗利佳,刘松国.基于Matlab的QJ-6R焊接机器人运动学分析及仿真[J].机电工程,2007,24(11):107-110. 被引量：21
8穆海华,周云飞,严思杰,韩爱国.超精密点对点运动三阶轨迹规划精度控制[J].机械工程学报,2008,44(1):126-132. 被引量：30
9韩大鹏,韦庆,杨乐平,李泽湘.任务空间实时轨迹规划的旋量方法[J].机器人,2008,30(4):304-310. 被引量：7
10王奇志,徐心和,尹朝万.PUMA机械手逆运动方程新的推导方法及求解[J].机器人,1998,20(2):81-87. 被引量：29

共引文献573

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.

同被引文献86

1李敏,冯亚丽,吴东林.采摘机器人动态果实目标检测与跟踪技术研究——基于云存储[J].农机化研究,2020,42(9):207-211. 被引量：10
2王岩,张旭辉,曹现刚,赵友军,杨文娟,杜昱阳,石硕.掘进工作面数字孪生体构建与平行智能控制方法[J].煤炭学报,2022,47(S01):384-394. 被引量：12
3雷孟宇,张旭辉,杨文娟,沈奇峰,张超,万继成,王恒.煤矿掘进装备视觉位姿检测与控制研究现状与趋势[J].煤炭学报,2021,46(S02):1135-1148. 被引量：23
4吴淼,李瑞,王鹏江,沈阳,郑伟雄,王东杰.基于数字孪生的综掘巷道并行工艺技术初步研究[J].煤炭学报,2020,45(S01):506-513. 被引量：41
5刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
6李玮,王晶,段建民.基于多项式的智能车辆换道轨迹规划[J].计算机工程与应用,2012,48(3):242-245. 被引量：20
7孙梅兰,朱功勤,谢进.构造有理插值函数的一种参数法[J].计算机工程与应用,2014,50(19):47-52. 被引量：3
8周济.智能制造——“中国制造2025”的主攻方向[J].中国机械工程,2015,26(17):2273-2284. 被引量：1261
9毛志伟,吴训,周少玲,李向春,邓凡灵.四轮驱动全轮差速转向移动焊接机器人运动学分析与仿真[J].中国机械工程,2016,27(13):1731-1734. 被引量：8
10滕举元,许洪斌,王毅,张哲.采摘机器人机械臂运动轨迹规划设计仿真[J].计算机仿真,2017,34(4):362-367. 被引量：20

引证文献9

1贺笑,李俊,侯言旭.基于深度Q网络的机器人抓取系统[J].工业控制计算机,2020,33(7):28-29.
2熊俊涛,李中行,陈淑绵,郑镇辉.基于深度强化学习的虚拟机器人采摘路径避障规划[J].农业机械学报,2020,51(S02):1-10. 被引量：25
3胡志荣.隧道无人台车运动学及轨迹规划研究[J].起重运输机械,2022(9):65-70.
4张旭辉,吕欣媛,王甜,黄本鑫,郑西利.数字孪生驱动的掘进机器人决策控制系统研究[J].煤炭科学技术,2022,50(7):36-49. 被引量：18
5张峻伟,吕帅,张正昊,于佳玉,龚晓宇.基于样本效率优化的深度强化学习方法综述[J].软件学报,2022,33(11):4217-4238. 被引量：8
6余久方,尧海昌.基于改进融合深度强化学习的机器人路径规划[J].组合机床与自动化加工技术,2023(5):19-22. 被引量：3
7付子强,郑威强,张立萍,何丽,袁亮,邵明明.基于MRD-DDPG的机械臂避障路径规划方法[J].组合机床与自动化加工技术,2023(7):41-45.
8沙林秀,曾童年.基于深度强化学习的机械臂动态目标跟踪控制[J].实验技术与管理,2023,40(6):128-134. 被引量：2
9李家乐,张建锋,李彬,刘天琅,陈检.基于深度强化学习的机械臂多模混合控制[J].计算机工程与设计,2024,45(9):2835-2843.

二级引证文献56

1张勤,乐晓亮,李彬,蒋先平,熊征,徐灿.基于CTB-RRT*的果蔬采摘机械臂运动路径规划[J].农业机械学报,2021,52(10):129-136. 被引量：19
2刘顿,王毅.改进Informed-RRT^(*)算法的柑橘采摘机械臂运动路径规划[J].重庆理工大学学报（自然科学）,2021,35(11):158-165. 被引量：8
3段洁利,王昭锐,叶磊,杨洲.水果采摘机械臂运动规划研究进展与发展趋势[J].智能化农业装备学报（中英文）,2021,2(2):7-17. 被引量：7
4李文彪.基于深度强化学习的工业机器人避障路径规划方法[J].制造业自动化,2022,44(1):127-130. 被引量：11
5王涛,黎玉康,刘文学.无人车辆路径规划算法发展现状[J].舰船电子工程,2022,42(5):15-22. 被引量：2
6申迎松,荣东.数字孪生与三维可视化在天地王坡选煤厂的应用实践[J].煤炭加工与综合利用,2022(8):26-29. 被引量：3
7郭爱军,王妙云,马宏伟,张旭辉,薛旭升,杜昱阳,张超.煤矿井下多旋翼飞行器避障控制方法研究[J].工矿自动化,2022,48(12):93-100. 被引量：3
8郭明,齐慧慧,郭可才,周玉泉,李登科.融合北斗/GNSS定位和5G通讯的地基激光雷达测量系统[J].光学精密工程,2023,31(4):450-458. 被引量：2
9李萍.基于移动通信终端控制的采摘机器人系统设计[J].农机化研究,2023,45(7):206-209. 被引量：1
10李贤.基于RRT算法的采茶机器人路径规划研究[J].农机化研究,2023,45(9):180-183. 被引量：5

1李鹤宇,赵志龙,顾蕾,郭丽琴,曾贲,林廷宇.基于深度强化学习的机械臂控制方法[J].系统仿真学报,2019,31(11):2452-2457. 被引量：12
2贾晓昱,杜美军,张鲜桃,唐先谱,姜瑜倩,李喜宏.不同浓度CO2对四川仔姜采后贮藏品质的影响[J].中国果菜,2019,39(12):7-11. 被引量：2
3吕付国.高中物理教学中优化课堂教学设计的策略分析[J].天津教育,2019,0(20):112-112.
4李远,农秉茂.包装搬运机器人运动轨迹优化设计[J].包装工程,2020,41(1):123-127. 被引量：13
5魏小峰,耿则勋,濮国梁,王德永.三角形网格的链码方法研究[J].北京大学学报（自然科学版）,2019,55(6):1014-1020.
6张飞腾.企业设备安全管理特征及优化策略探究[J].石油石化物资采购,2019,0(17):109-109.
7刘丽芳.包装物料分拣机器人运动轨迹规划[J].科技通报,2019,35(11):130-134. 被引量：2
8王文伟,高越,潘红,林程.基于动态规划的双电机耦合电驱动系统控制策略优化[J].中国基础科学,2019,21(S01):79-83.
9周绍磊,赵学远,王帅磊,祁亚辉.基于事件触发的多智能体系统编队控制[J].兵器装备工程学报,2019,40(12):85-89. 被引量：2
10许琳昊,朱舜,王立群,何军.基于强化学习与Lidar-SLAM技术智能小车开发[J].电子测量技术,2019,42(21):27-31. 被引量：2

计算机工程与应用

2020年第2期

浏览历史

内容加载中请稍等...

面向轨迹规划的深度强化学习奖励函数设计被引量：9

参考文献2

二级参考文献46

共引文献573

同被引文献86

引证文献9

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

面向轨迹规划的深度强化学习奖励函数设计 被引量：9

参考文献2

二级参考文献46

共引文献573

同被引文献86

引证文献9

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

面向轨迹规划的深度强化学习奖励函数设计被引量：9