基于改进TD3算法的机器人路径规划

Robot path planning based on improved TD3 algorithm

下载PDF

导出

摘要针对机器人路径规划中深度强化学习方法训练时间长、收敛速度慢的问题,提出一种改进双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)。该算法引入人工势场中的引力场和斥力场优化TD3的奖励函数,引导机器人合理的避开障碍物前往目标点,从而提高算法的收敛速度和准确率;同时运用运动约束规则对机器人的运动方向进行约束,使得运动轨迹更加平滑流畅。仿真实验结果表明,在多障碍物环境中,所提算法能有效地使机器人避开障碍物并规划出合理的路径。与其他方法相比,改进后的算法规划成功率更高,规划路径更短。 Aiming at the problems of long training time and slow convergence speed of deep reinforcement learning methods in robot path planning,an improved Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm is proposed.The algorithm introduces the gravitational field and repulsive field in the artificial potential field to optimize the reward function of TD3,which guides the robot to avoid obstacles to the target point reasonably,so as to improve the convergence speed and accuracy of the algorithm;at the same time,it applies motion constraints rules to constrain the direction of the robot s motion,which makes the trajectory smoother and more fluent.The results of simulation experiments show that in a multi-obstacle environment,the proposed algorithm can effectively make the robot avoid obstacles and plan a reasonable path,and the improved algorithm has a higher planning success rate and a shorter planning path compared with other methods.

作者方立平陈远明杨哲谭德坤 FANG Liping;CHEN Yuanming;YANG Zhe;TAN Dekun(School of Information Engineering,Nanchang Institute of Technology,Nanchang 330099,China;Jiangxi Provincial Key Laboratory of Cooperative Sensing and Intelligent Processing of Water Information,Nanchang 330099,China)

机构地区南昌工程学院信息工程学院江西省水信息协同感知与智能处理重点实验室

出处《齐鲁工业大学学报》 CAS 2024年第4期1-9,共9页 Journal of Qilu University of Technology

基金江西省教育厅科技项目(GJJ190958)。

关键词机器人路径规划 TD3 人工势场运动约束 robot path planning TD3 artificial potential field motion constraint

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1李晓旭,马兴录,王先鹏.移动机器人路径规划算法综述[J].计算机测量与控制,2022,30(7):9-19. 被引量：46
2薛均晓,孔祥燕,董博威,陶浩,管海洋,石磊,徐明亮.航母甲板上舰载机的混合避障和仿真[J].系统仿真学报,2023,35(3):592-603. 被引量：2
3王洪斌,郝策,张平,张明泉,尹鹏衡,张永顺.基于A~*算法和人工势场法的移动机器人路径规划[J].中国机械工程,2019,30(20):2489-2496. 被引量：105
4秦旭,黄晓华,马东明,翁亚华.基于改进D^(*)算法的巡检机器人路径规划[J].组合机床与自动化加工技术,2022(6):10-13. 被引量：16
5王硕,段蓉凯,廖与禾.机器人路径规划中快速扩展随机树算法的改进研究[J].西安交通大学学报,2022,56(7):1-8. 被引量：24
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：472
7余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610

二级参考文献106

1刘军,冯硕,任建华.移动机器人路径动态规划有向D~*算法[J].浙江大学学报（工学版）,2020,54(2):291-300. 被引量：27
2许松清,吴海彬,林宜,高洪张,陈天炎.基于Voronoi图法的移动机器人路径规划[J].中国工程机械学报,2005,3(3):336-340. 被引量：12
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4宋晖,高小明,张华.智能机器人路径规划及算法研究[J].微计算机信息,2006(11Z):244-246. 被引量：14
5刘玲,王耀南,况菲,张辉.基于神经网络和遗传算法的移动机器人路径规划[J].计算机应用研究,2007,24(2):264-265. 被引量：22
6高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
7MarkoffJ. How many computers to identify a cat?[NJ The New York Times, 2012-06-25.
8MarkoffJ. Scientists see promise in deep-learning programs[NJ. The New York Times, 2012-11-23.
9李彦宏.2012百度年会主题报告:相信技术的力量[R].北京:百度,2013.
1010 Breakthrough Technologies 2013[N]. MIT Technology Review, 2013-04-23.

共引文献1256

1贾彦哲.论人工智能研发者过失犯的注意义务[J].华中师范大学研究生学报,2020(2):40-46.
2傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
3刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
7毕思文,Henri Jaffrès,Chandra Sekhar Roychoudhuri.量子遥感发展新态势——世界首次量子遥感国际会议评述[J].全球变化数据学报（中英文）,2019,3(4):317-325. 被引量：1
8范敏,胥小波,聂小明.基于字符级扩张卷积网络的Web攻击检测方法[J].计算机应用研究,2020,37(S02):234-237. 被引量：4
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
10孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1

1Zhenyu Li,Yuchuan Fu,Mengqiu Tian,Changle Li.Cooperative sensing,communication and computation resource allocation in mobile edge computing-enabled vehicular networks[J].Journal of Information and Intelligence,2024,2(4):339-354.
2路坤锋,贾晨辉,黄旭,刘晓东,柳嘉润,王昭磊.面向变构型飞行器的强化学习位置姿态一体化控制方法[J].宇航学报,2024,45(7):1100-1110.
3曹京威,何秋生.基于改进DDQN的无人车路径规划算法[J].组合机床与自动化加工技术,2024(8):48-53.
4洪道玉,陈巍,陈国军,杨雪,郭铁铮.融合人工势场和RRT算法的水下机械臂自适应路径规划[J].农业装备与车辆工程,2024,62(8):99-103.
5张家维,白成超,郭继峰.考虑基座振动抑制的双空间机械臂协同阻抗控制[J].宇航学报,2024,45(7):1111-1122.
6段玉堂,屠佳佳,韩思捷,史伟民.基于改进遗传算法的换纱筒机器人路径规划[J].针织工业,2024(7):1-4.
7国际船舶市场行情每周评述挪威Fearnleys公司2024年5月8日发布[J].船舶经济贸易,2024(6):48-52.
8杜婉琳,王玲,罗威,朱远哲,吕鸿,马潇男,周霞.基于深度强化学习的有源配电网电压分层控制策略[J].发电技术,2024,45(4):734-743.
9王东振,张岳,赵宇,黄大庆.基于RRT-Dubins的无人机航迹优化方法[J].兵工学报,2024,45(8):2761-2773.

齐鲁工业大学学报

2024年第4期

浏览历史

内容加载中请稍等...

基于改进TD3算法的机器人路径规划

参考文献7

二级参考文献106

共引文献1256

相关作者

相关机构

相关主题

浏览历史