基于深度强化学习的虚拟机器人采摘路径避障规划被引量：21

Obstacle Avoidance Planning of Virtual Robot Picking Path Based on Deep Reinforcement Learning

下载PDF

导出

摘要针对采摘机器人在野外作业环境中,面临采摘任务数量多,目标与障碍物位置具有随机性和不确定性等问题,提出一种基于深度强化学习的虚拟机器人采摘路径避障规划方法,实现机器人在大量且不确定任务情况下的快速轨迹规划。根据机器人本体物理结构设定虚拟机器人随机运动策略,通过对比分析不同网络输入观测值的优劣,结合实际采摘行为设置环境观测集合,作为网络的输入;引入人工势场法目标吸引和障碍排斥的思想建立奖惩函数,对虚拟机器人行为进行评价,提高避障成功率;针对人工势场法范围斥力影响最短路径规划的问题,提出了一种方向惩罚避障函数设置方法,将障碍物范围惩罚转换为单一方向惩罚,通过建立虚拟机器人运动碰撞模型,分析碰撞结果选择性给予方向惩罚,进一步优化了规划路径长度,提高采摘效率;在Unity内搭建仿真环境,使用MLAgents组件建立分布式近端策略优化算法及其与仿真环境的交互通信,对虚拟机器人进行采摘训练。仿真实验结果显示,不同位置障碍物设置情况下虚拟机器人完成采摘任务成功率达96.7%以上。在200次随机采摘实验中,方向惩罚避障函数方法采摘成功率为97.5%,比普通奖励函数方法提高了11个百分点,采摘轨迹规划平均耗时0.64 s/次,相较于基于人工势场法奖励函数方法降低了0.45 s/次,且在连续变动任务实验中具有更高的适应性和鲁棒性。研究结果表明,本系统能够高效引导虚拟机器人在避开障碍物的前提下快速到达随机采摘点,满足采摘任务要求,为真实机器人采摘路径规划提供理论与技术支撑。 In the field environment,picking robots are faced with the problems of a large number of picking tasks,randomness and uncertainty in the positions of targets and obstacles,and so on.Traditional picking path planning methods usually use kinematics equations combined with the shortest path algorithm to solve them,while takes a lot of time to calculate in each planning.In order to improve the efficiency of trajectory planning to adapt to the field picking environment,a virtual robot picking path planning method based on deep reinforcement learning was proposed.Firstly,the virtual robot random action strategies were set according to the real robot physical structure,and the environment observation set was rationally set as the input of the network by analyzing the actual picking behavior.Establishing reward function with the reference to the idea of target attraction and obstacle rejection in artificial potential field method,which was used to evaluate the behavior of virtual robots and improve the success rate of obstacle avoidance.Aiming at the problem that the range repulsion of the artificial potential field method affected the shortest path planning,a directional penalty obstacle avoidance function setting method was proposed,which converted the obstacle range penalty into a single direction penalty.Besides,by establishing a virtual robot motion collision model,the direction penalties were giving selectively by analysis results of the model.Finally,a simulation environment in Unity was built,and the distributed proximal policy optimization algorithm was used to train the virtual robot.The simulation experiment results showed that the success rate of the virtual robot in completing the picking task was over 96.7%under the condition of obstacles in different positions.In 200 random picking experiments,the directional penalty obstacle avoidance function method had a picking success rate of 97.5%,which was 11 percentage points higher than the ordinary reward function method,and the picking trajectory planning took an average of 0.64 s/time,which was 0.45 s/time shorter than the artificial potential field method.The research results showed that the system can efficiently guide virtual robots to quickly reach random picking points under the premise of avoiding obstacles,and met the requirements of picking tasks,which provided theoretical and technical support for real robot picking path planning.

作者熊俊涛李中行陈淑绵郑镇辉 XIONG Juntao;LI Zhonghang;CHEN Shumian;ZHENG Zhenhui(College of Mathematics and Informatics, South China Agricultural University, Guangzhou 510642, China)

机构地区华南农业大学数学与信息学院

出处《农业机械学报》 EI CAS CSCD 北大核心 2020年第S02期1-10,共10页 Transactions of the Chinese Society for Agricultural Machinery

基金国家自然科学基金项目(32071912) 广东省自然科学基金项目(2018A030313330) 广州市科技计划项目(202002030423) 国家级大学生创新创业训练计划项目(201910564033)。

关键词采摘机器人路径规划避障深度强化学习人工势场法 picking robot route planning obstacle avoidance deep reinforcement learning artificial potential field method

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1毕松,高峰,陈俊文,张潞.基于深度卷积神经网络的柑橘目标识别方法[J].农业机械学报,2019,50(5):181-186. 被引量：58
2冯苏柳,姜秀华.基于强化学习的DASH自适应码率决策算法研究[J].中国传媒大学学报（自然科学版）,2020,27(2):59-64. 被引量：1
3滕举元,许洪斌,王毅,张哲.采摘机器人机械臂运动轨迹规划设计仿真[J].计算机仿真,2017,34(4):362-367. 被引量：20
4王曌,胡立生.基于深度Q学习的工业机械臂路径规划方法[J].化工自动化及仪表,2018,45(2):141-145. 被引量：6
5薛阳,俞志程,吴海东,张宁,孙越.基于改进人工势场法的双机械臂避障路径规划[J].机械传动,2020,44(3):39-45. 被引量：13
6马冀桐,王毅,何宇,王恺,张艺谭.基于构型空间先验知识引导点的柑橘采摘机械臂运动规划[J].农业工程学报,2019,35(8):100-108. 被引量：18
7周祺杰,刘满禄,李新茂,张华.基于深度强化学习的固体放射性废物抓取方法研究[J].计算机应用研究,2020,37(11):3363-3367. 被引量：3
8李跃,邵振洲,赵振东,施智平,关永.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020,56(2):226-232. 被引量：8
9王毅,滕举元,张哲,许洪斌.六自由度采摘机械臂采摘姿态规划研究[J].机械设计与制造,2019(8):235-238. 被引量：13
10王甲甲,程志强,张伏,王俊.果园采摘机械手研究现状综述[J].农机化研究,2020,0(5):258-262. 被引量：10

二级参考文献90

1张铁中,周天娟.草莓采摘机器人的研究:Ⅰ.基于BP神经网络的草莓图像分割[J].中国农业大学学报,2004,9(4):65-68. 被引量：39
2杨峰,唐继勇.嵌入式系统软件及编程语言[J].西部广播电视,2005,26(1):58-60. 被引量：2
3唐华斌,王磊,孙增圻.基于随机采样的运动规划综述[J].控制与决策,2005,20(7):721-726. 被引量：9
4姜丽萍,陈树人.果实采摘机器人的研究综述[J].农业装备技术,2006,32(1):8-10. 被引量：42
5宋健,张铁中,徐丽明,汤修映.果蔬采摘机器人研究进展与展望[J].农业机械学报,2006,37(5):158-162. 被引量：213
6严勇杰,朱齐丹,蒋丞.基于OpenGL的机械臂控制系统仿真平台研究[J].计算机仿真,2006,23(8):252-257. 被引量：14
7庄鹏,姚正秋.基于摆线运动规律的悬索并联机器人轨迹规划[J].机械设计,2006,23(9):21-24. 被引量：13
8蔡健荣,赵杰文,Thomas Rath,Macco Kawollek.水果收获机器人避障路径规划[J].农业机械学报,2007,38(3):102-105. 被引量：42
9陈立彬,尤波.基于改进人工势场法的机器人动态追踪与避障[J].自动化技术与应用,2007,26(4):8-10. 被引量：15
10刘继展,李萍萍,李智国.番茄采摘机器人末端执行器的硬件设计[J].农业机械学报,2008,39(3):109-112. 被引量：92

共引文献210

1张文利,陈开臻,刘鈺昕,段玉林,郭威,史云.基于边缘设备的轻量化小目标果实检测模型[J].中国农业信息,2021,33(1):28-36. 被引量：2
2魏国莲,林成全.果蔬自动化采摘机的机械结构设计与试验[J].农机化研究,2020,42(9):117-124. 被引量：15
3邓朋飞,官铮,王宇阳,王学.基于迁移学习和模型压缩的玉米病害识别方法[J].计算机科学,2022,49(S02):444-449. 被引量：3
4陈东东.秋歌[J].作家,2000(3):17-17.
5丁玉龙,洪宪遵.塑造一代新人的奠基工程[J].教育探索,2000(8):73-73.
6王志甄,廖洋,邹志云,娄雷,周守艳.自动洗消机械臂的设计与控制[J].兵工自动化,2019,38(3):92-96.
7宋东亚.基于单片机的机械臂运行轨迹在线控制系统设计[J].现代电子技术,2018,41(18):174-177. 被引量：6
8李广创,程良伦.基于深度强化学习的机械臂避障路径规划研究[J].软件工程,2019,22(3):12-15. 被引量：8
9林用满,管卫华,甘莉莉.六自由度水果采摘机械臂结构设计与试验[J].中国农机化学报,2019,40(2):62-71. 被引量：15
10马学森,朱建,谈杰,唐昊,周江涛.多头绒泡菌预处理的改进Q学习算法求解最短路径问题[J].电子测量与仪器学报,2019,31(5):148-157. 被引量：4

同被引文献229

1董英军,宋健,齐天柱,王成军,张玉龙.基于OpenGL和MATLAB的五自由度采摘机器人动态仿真[J].农业装备与车辆工程,2019,57(S01):119-121. 被引量：2
2刘慧,张世义,段云鹏,贾卫东,沈跃.基于改进双向RRT^(*)的果园机器人运动规划算法[J].农业机械学报,2022,53(11):31-39. 被引量：6
3刘娇,刘扬.大数据分析在智能采摘机器人路径规划中的应用[J].农机化研究,2020,0(10):221-225. 被引量：4
4王苏彧,张铃炜,齐佳丽,盖禹成.自适应导向蚁群算法优化移动机器人路径规划[J].计算机应用研究,2020,37(S01):116-117. 被引量：9
5李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：13
6王怀江,刘晓平,王刚,韩松.基于改进遗传算法的移动机械臂拣选路径优化[J].北京邮电大学学报,2020(5):34-40. 被引量：18
7邹湘军,罗锡文,卢俊,罗陆锋,李宗樑,莫雪生,范蕾.虚拟环境下农业移动机器人行为及其仿真建模[J].系统仿真学报,2006,18(z2):551-553. 被引量：22
8赵真明,孟正大.基于加权A~*算法的服务型机器人路径规划[J].华中科技大学学报（自然科学版）,2008,36(S1):196-198. 被引量：32
9熊俊涛,叶敏,邹湘军,彭红星,林桂潮,朱梦思.多类型水果采摘机器人系统设计与性能分析[J].农业机械学报,2013,44(S1):230-235. 被引量：40
10童亮,陆际联.基于强化学习的机器人操作手轨迹规划方法研究[J].制造技术与机床,2005(5):33-36. 被引量：1

引证文献21

1张勤,乐晓亮,李彬,蒋先平,熊征,徐灿.基于CTB-RRT*的果蔬采摘机械臂运动路径规划[J].农业机械学报,2021,52(10):129-136. 被引量：17
2刘顿,王毅.改进Informed-RRT^(*)算法的柑橘采摘机械臂运动路径规划[J].重庆理工大学学报（自然科学）,2021,35(11):158-165. 被引量：8
3段洁利,王昭锐,叶磊,杨洲.水果采摘机械臂运动规划研究进展与发展趋势[J].智能化农业装备学报（中英文）,2021,2(2):7-17. 被引量：4
4李文彪.基于深度强化学习的工业机器人避障路径规划方法[J].制造业自动化,2022,44(1):127-130. 被引量：10
5王涛,黎玉康,刘文学.无人车辆路径规划算法发展现状[J].舰船电子工程,2022,42(5):15-22.
6李萍.基于移动通信终端控制的采摘机器人系统设计[J].农机化研究,2023,45(7):206-209.
7李贤.基于RRT算法的采茶机器人路径规划研究[J].农机化研究,2023,45(9):180-183. 被引量：4
8张趁香.基于目标搜索算法的植保机作业轨迹规划设计[J].农机化研究,2023,45(8):211-214.
9马爱华.基于数学轨迹算法的采摘机器人精准化作业[J].农机化研究,2023,45(10):86-90.
10熊春源,熊俊涛,杨振刚,胡文馨.基于深度强化学习的柑橘采摘机械臂路径规划方法[J].华南农业大学学报,2023,44(3):473-483. 被引量：2

二级引证文献47

1郑成辰,李辉,陶伟,刘思成,吴冯国,何立.基于深度强化学习的导弹末端约束角制导律[J].战术导弹技术,2022(6):93-102. 被引量：1
2刘慧,张世义,段云鹏,贾卫东,沈跃.基于改进双向RRT^(*)的果园机器人运动规划算法[J].农业机械学报,2022,53(11):31-39. 被引量：6
3朱胜涛,戴娟,刘海涛,李剑锋.Bezier曲线与A-Star算法融合的火星探测器路径规划[J].电子测量技术,2023,46(19):69-75.
4刘顿,王毅.改进Informed-RRT^(*)算法的柑橘采摘机械臂运动路径规划[J].重庆理工大学学报（自然科学）,2021,35(11):158-165. 被引量：8
5段洁利,王昭锐,叶磊,杨洲.水果采摘机械臂运动规划研究进展与发展趋势[J].智能化农业装备学报（中英文）,2021,2(2):7-17. 被引量：4
6王怀震,高明,王建华,房立金,李洪生.基于改进RRT^(*)-Connect算法的机械臂多场景运动规划[J].农业机械学报,2022,53(4):432-440. 被引量：10
7匡泓瑾.我国工业机器人核心部件存在的问题及优化策略[J].造纸装备及材料,2022,51(1):10-12. 被引量：1
8李晓旭,马兴录,王先鹏.移动机器人路径规划算法综述[J].计算机测量与控制,2022,30(7):9-19. 被引量：31
9唐熙,罗强,粟生强.柑橘采摘机器人的连续采摘路径规划[J].南方农机,2022,53(16):5-7. 被引量：3
10林洪兵,苏辉,陈锬.基于机器视觉的摘果机器人设计[J].软件,2022,43(7):146-150.

1何怀宏.在人性的范围内——有关科技与人文的一些思考[J].华东师范大学学报（哲学社会科学版）,2021,53(1):1-10. 被引量：5
2祁居兴.民间传统体育游戏在阳光体育活动中的运用[J].甘肃教育,2020(21):114-114. 被引量：1
3崔根群,胡可润,唐风敏.融合遗传贝塞尔曲线的智能汽车路径规划[J].现代电子技术,2021,44(1):144-148. 被引量：9
4方永利,黄洁,张峰,石荡赫.参数驱动的新能源汽车吸能盒结构优化设计[J].机械设计,2020,37(S02):181-186. 被引量：6
5陈龙.G3i全数字地震仪器大数据量存储的参数设置简介[J].物探装备,2020(2):108-111.
6俞洁,欧梦仙,王军,纪媛媛.踝泵运动预防术后下肢深静脉血栓形成的应用现状[J].中国护理管理,2020,20(12):1873-1876. 被引量：34
7无.深圳:主动谋划自加压力以减税降费激活市场发展潜能[J].中国财政,2020(24):30-31.
8刘建华,胡文瑜,唐郑熠,林芳.数据科学与大数据技术专业课程体系探索[J].科教文汇,2021(2):115-116. 被引量：4
9张海艳,兰玉彬,文晟,许童羽,于丰华.植保无人机旋翼风场模型与雾滴运动机理研究进展[J].农业工程学报,2020,36(22):1-12. 被引量：21
10张驰.基于相位相序调整的双向绿波设置方法[J].交通科学与工程,2020,36(4):113-118. 被引量：2

农业机械学报

2020年第S02期

浏览历史

内容加载中请稍等...

基于深度强化学习的虚拟机器人采摘路径避障规划被引量：21

参考文献12

二级参考文献90

共引文献210

同被引文献229

引证文献21

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的虚拟机器人采摘路径避障规划 被引量：21

参考文献12

二级参考文献90

共引文献210

同被引文献229

引证文献21

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的虚拟机器人采摘路径避障规划被引量：21