基于强化学习的挖掘机时间最优轨迹规划

Time optimal trajectory planning of excavator based on deep reinforcement learning

导出

摘要针对挖掘机的自主作业场景,提出基于强化学习的时间最优轨迹规划方法.首先,搭建仿真环境用于产生数据,以动臂、斗杆和铲斗关节的角度、角速度为状态观测变量,以各关节的角加速度值为动作信息,通过状态观测信息实现仿真环境与自主学习算法的交互;然后,设计以动臂、斗杆和铲斗关节运动是否超出允许范围、完成任务总时间和目标相对距离为奖励函数对策略网络参数进行训练;最后,利用改进的近端策略优化算法(proximal policy optimization, PPO)实现挖掘机的时间最优轨迹规划.与此同时,与不同连续动作空间的强化学习算法进行对比,实验结果表明:所提出优化算法效率更高,收敛速度更快,作业轨迹更平滑,可有效避免各关节受到较大冲击,有助于挖掘机高效、平稳地作业. Aiming at the autonomous operation scenarios of excavators,a time optimal trajectory planning method based on reinforcement learning is proposed.This method builds a simulation environment to generate data.The angle and velocity of the boom,arm and bucket joints are used as state observation variables,and the angle acceleration of each joint is used as action information,and the simulation environment and autonomous learning are realized through the state observation information.The interaction of the algorithm is designed to train the policy network parameters using whether the joint motion of the boom,arm and bucket exceeds the allowable range,the total time to complete the task and the relative distance of the target as the reward function to train the policy network parameters.Finally,using the improved proximal policy optimization(PPO)realizes the time optimal trajectory planning of the excavator.At the same time,compared with the results of the different reinforcement learning algorithms with continuous action spaces,the experimental results show that the proposed optimization algorithm has higher efficiency,faster convergence speed,and smoother operation trajectory,which can effectively avoid the large impact on each joint and contribute to the efficient and stable operation of the excavator.

作者张韵悦孙志毅孙前来王银 ZHANG Yun-yue;SUN Zhi-yi;SUN Qian-lai;WANG Yin(Department of Electronics and Information Engineering,Taiyuan University of Science and Technology,Taiyuan 030024,China)

机构地区太原科技大学电子信息工程学院

出处《控制与决策》 EI CSCD 北大核心 2024年第5期1433-1440,共8页 Control and Decision

基金山西省重点研发计划项目(201903D121130) 山西省自然科学基金项目(201901D111265) 山西省研究生创新项目(2021Y670) 太原科技大学科研启动基金项目(20192014)。

关键词挖掘机自主作业轨迹规划多智能体 PPO算法智能决策 excavator autonomous operation trajectory planning multi-agent PPO algorithm intelligent decisionmaking

分类号 TP241 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献11

1李运华,范茹军,杨丽曼,赵斌,权龙.智能化挖掘机的研究现状与发展趋势[J].机械工程学报,2020,56(13):165-178. 被引量：41
2葛磊,董致新,李运华,权龙,张晓刚,赵斌.系列化液压挖掘机数字样机研究[J].机械工程学报,2019,55(14):186-196. 被引量：22
3张文佳,尚伟伟.2自由度绳索牵引并联机器人的高速点到点轨迹规划方法[J].机械工程学报,2016,52(3):1-8. 被引量：19
4白云飞,张奇峰,范云龙,翟新宝,田启岩,唐元贵,张艾群.基于能耗优化的深海电动机械臂轨迹规划[J].机器人,2020,42(3):301-308. 被引量：20
5潘双夏,季炳伟,童永峰.基于操纵平稳性的液压挖掘机轨迹规划方法[J].浙江大学学报（工学版）,2006,40(8):1311-1314. 被引量：11
6庄宇飞,马广富,黄海滨.欠驱动刚性航天器时间最优轨迹规划设计[J].控制与决策,2010,25(10):1469-1473. 被引量：10
7文郁,黄江帅,江涛,苏晓杰.安全平滑的改进时间弹性带轨迹规划算法[J].控制与决策,2022,37(8):2008-2016. 被引量：10
8龙腾,李恩,杨国栋,杨磊,范俊峰,梁自泽.基于PSO非均匀样条插值的混合结构柔性臂抑振轨迹规划[J].控制与决策,2018,33(6):978-988. 被引量：5
9訾斌,徐锋,唐锴,王宜藩,沙炜鹏.基于机器视觉的喷涂机器人轨迹规划与涂装质量检测研究综述[J].控制与决策,2023,38(1):1-21. 被引量：23
10魏武,李艳杰,廖志鹏,张晶.基于旋量理论的蛇形机器人运动学建模[J].华南理工大学学报（自然科学版）,2019,47(2):1-8. 被引量：16

二级参考文献116

1王芳,张洪华.欠驱动刚性航天器旋转轴稳定研究[J].宇航学报,2007,28(5):1133-1137. 被引量：13
2何平,刘宏,金明河.基于样条函数的机器人轨迹规划方法[J].机器人,2003,25(z1):614-618. 被引量：16
3潘双夏,刘静,冯培恩,高峰.挖掘机器人虚拟样机的机电液一体化建模与仿真[J].中国工程机械学报,2003,1(1):49-53. 被引量：17
4张爱武,孙卫东,李风亭.基于激光扫描数据的室外场景表面重建方法[J].系统仿真学报,2005,17(2):384-387. 被引量：30
5柯映林,单东日.基于边特征的点云数据区域分割[J].浙江大学学报（工学版）,2005,39(3):377-380. 被引量：36
6叶平,孙汉旭,谭月胜,张秋豪,许彦峰.旋量理论与矢量积法相结合求解雅可比矩阵[J].机械科学与技术,2005,24(3):353-356. 被引量：10
7陈伟海,周杰,于守谦,吴星明.基于螺旋理论模块化机器人运动学分析与仿真[J].北京航空航天大学学报,2005,31(7):814-818. 被引量：7
8柯映林,王青.反求工程中的点云切片算法研究[J].计算机辅助设计与图形学学报,2005,17(8):1798-1802. 被引量：44
9孙波,陈卫东,席裕庚.基于粒子群优化算法的移动机器人全局路径规划[J].控制与决策,2005,20(9):1052-1055. 被引量：79
10何清华,张大庆,郝鹏,张新海.液压挖掘机工作装置仿真研究[J].系统仿真学报,2006,18(3):735-738. 被引量：58

共引文献175

1赵亮,李春轩,张玮奇,陈登峰,李兆强.基于融合引-斥力与动态窗口法的机器人静动态局部路径规划方法优化[J].信息与控制,2024,53(2):226-237. 被引量：1
2车众元,王景瑞,吴雪松.基于混合插值的机械臂运动轨迹跟踪控制方法[J].科技通报,2020(10):46-51. 被引量：7
3孙树磊,雷丽妃,黄海波,张少波,田国英,邓鹏毅.基于用户作业工况的履带式挖掘机加速疲劳强化路面构建方法[J].机械工程学报,2022,58(16):319-328. 被引量：2
4冯培恩,邵力平,高宇,潘双夏.液压挖掘机器人多关节协调控制研究[J].中国工程机械学报,2006,4(3):253-258. 被引量：3
5宁祎,周崇刚,吕玉军.遥操作机器人多关节联动控制算法[J].科学技术与工程,2011,11(29):7137-7140. 被引量：1
6向爱平.我的“点子”意识[J].人民教育,2000(2):32-33.
7任志贵,陈进,贺康生,张波.基于运动学分析的挖掘机器人轨迹规划新方法[J].中国工程机械学报,2012,10(2):150-155. 被引量：10
8王民玉,张丽.原发性肝癌患者血清TNF-α水平检测及其临床意义[J].实用癌症杂志,2000,15(1):31-31. 被引量：13
9庄宇飞,黄海滨.欠驱动航天器实时最优控制算法设计[J].系统工程与电子技术,2013,35(7):1477-1485. 被引量：2
10张春华,唐迎佳,杨帆,康林.基于时间基准的挖掘机器人轨迹规划方法[J].兵工自动化,2013,32(9):80-83. 被引量：4

1王凯威,尉静娴.基于智能优化方法的工业机器人时间最优轨迹规划方法[J].价值工程,2024,43(18):127-129.
2滕儒民,张文帅,王欣,王大洪.破拆机器人拆除窑衬的时间最优轨迹规划[J].中国工程机械学报,2023,21(6):562-567.
3周小凡,苌道方,余芳,高银萍.考虑充电和等待时间的集装箱码头AGV调度[J].上海海事大学学报,2019,40(3):1-5. 被引量：10
4杨其飞,兰培真.考虑充电过程的自动化码头AGV调度[J].集美大学学报（自然科学版）,2023,28(2):142-149. 被引量：2
5马湧,冯凯,杨新彬.基于贝叶斯公式的炼钢厂天车调度方法[J].控制与决策,2023,38(1):211-218. 被引量：2
6汤兆平,孟鑫,孙剑萍,彭俊.基于改进鲸鱼优化算法的码垛机器人时间最优轨迹规划[J].科学技术与工程,2024,24(14):5882-5891.
7张宏伟,赵修锟,张天刚.六自由度飞机清洗臂运动学建模与轨迹优化[J].计算机仿真,2024,41(2):38-43.
8王畅,任苗,葛振振,赵霞,李朝.城市道路工况全触屏模式下空调操作风险特性[J].重庆交通大学学报（自然科学版）,2024,43(4):110-116.

控制与决策

2024年第5期

浏览历史

内容加载中请稍等...

基于强化学习的挖掘机时间最优轨迹规划

参考文献11

二级参考文献116

共引文献175

相关作者

相关机构

相关主题

浏览历史