基于改进强化学习的机器人路径规划研究被引量：6

Robot path planning research based on improved reinforcement learning

下载PDF

导出

摘要针对机器人在一些未知环境中使用强化学习中的Q学习算法做路径规划研究时收敛速度慢、规划路径长和搜索效率低等问题,提出一种改进强化学习算法。在Q学习算法中引入一种经验记忆力机制,能够基于从当前状态节点到起始点的最短距离的连续更新。该算法新设计的两个表的不同角色分配增强了机器人的自主学习能力,其中利用EM表来记录距离信息,反映了机器人对周围环境信息学习搜索的过程;指令表辅助Q表共同来帮助机器人规划路径并引导机器人安全地移动到终点。另外针对算法的过估计问题,设计了一种奖励机制,旨在防止机器人过度探索状态节点,避免在未知环境中盲目搜索。最后,利用Hermite曲线对路径进行平滑。从规划时间、迭代次数和路径长度的仿真结果表明,改进强化学习算法相较于Q学习算法在收敛速度和优化能力上均取得较大提高,能进一步提高机器人路径规划的效率。

作者李威张晓东姜学峰李健俊张稳稳 LI Wei;ZHANG Xiao-dong;JIANG Xue-feng;LI Jian-jun;ZHANG Wen-wen

机构地区浙江中烟工业有限责任公司浙江大学杭州优稳自动化系统有限公司

出处《制造业自动化》北大核心 2023年第3期148-151,172,共5页 Manufacturing Automation

基金卷接设备电控系统深度安全技术研究与应用项目(2019330000340423) 工业互联网创新发展工程项目(TC190A449)。

关键词未知环境 Q学习经验记忆力机制机器人路径规划

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献8

1张志文,张鹏,毛虎平,李晓杰,程必良.改进A^(*)算法的机器人路径规划研究[J].电光与控制,2021,28(4):21-25. 被引量：46
2辜勇,段晶晶,苏宇霞,袁源乙.基于改进蚁群算法的仓储物流机器人路径规划[J].武汉理工大学学报（交通科学与工程版）,2020,44(4):688-693. 被引量：12
3毛国君,顾世民.改进的Q-Learning算法及其在路径规划中的应用[J].太原理工大学学报,2021,52(1):91-97. 被引量：19
4王科银,石振,杨正才,杨亚会,王思山.改进强化学习算法应用于移动机器人路径规划[J].计算机工程与应用,2021,57(18):270-274. 被引量：7
5王猛,李民强,余道洋.基于改进Q学习算法的无人水面艇动态环境路径规划[J].仪表技术,2020(4):17-20. 被引量：4
6于乃功,默凡凡.基于深度自动编码器与Q学习的移动机器人路径规划方法[J].北京工业大学学报,2016,42(5):668-673. 被引量：14
7汪盛民,林伟,曾碧.未知环境下基于虚拟子目标的对立Q学习机器人路径规划[J].广东工业大学学报,2019,36(1):51-56. 被引量：4
8李福进,张俊琴,任红格.基于仿生学内在动机的Q学习算法移动机器人路径规划研究[J].现代电子技术,2019,42(17):133-137. 被引量：5

二级参考文献71

1乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
2张捍东,郑睿,岑豫皖.移动机器人路径规划技术的现状与展望[J].系统仿真学报,2005,17(2):439-443. 被引量：120
3朱庆保,张玉兰.基于栅格法的机器人路径规划蚁群算法[J].机器人,2005,27(2):132-136. 被引量：123
4樊晓平,李双艳,陈特放.基于新人工势场函数的机器人动态避障规划[J].控制理论与应用,2005,22(5):703-707. 被引量：40
5窦全胜,周春光,徐中宇,潘冠宇.动态优化环境下的群核进化粒子群优化方法[J].计算机研究与发展,2006,43(1):89-95. 被引量：20
6慕延华,尹怡欣,涂序彦,孙铁强.一种室内环境下移动机器人的路径规划新算法[J].计算机工程与应用,2006,42(20):58-60. 被引量：3
7黄炳强,曹广益.基于人工势场法的移动机器人路径规划研究[J].计算机工程与应用,2006,42(27):26-28. 被引量：38
8赫东锋,孙树栋.一种在线自学习的移动机器人模糊导航方法[J].西安工业大学学报,2007,27(4):325-329. 被引量：2
9BEOM H R, CHO H S. A sensor-based navigation for amobile robot using fuzzy logic and reinforcement learning[J]. IEEE Trans on System, Man and Cybernetics, 1995,25(3): 464-477.
10DEISENROTH M P, FOX D, RASMUSSEN C E.Gaussian processes for data-efficient learning in roboticsand control[J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2015, 37(2): 408-423.

共引文献102

1邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：3
2赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
3贾云辉,张志宏,何宏.基于ARM-Linux的爬壁机器人控制器研究[J].电子测量与仪器学报,2017,31(9):1459-1466. 被引量：8
4贾文娟,张煜东.自编码器理论与方法综述[J].计算机系统应用,2018,27(5):1-9. 被引量：24
5龙卓群,吴超,雷日兴.移动机器人躲避多静态障碍物路径智能规划方法[J].自动化与仪器仪表,2018,0(10):178-181. 被引量：5
6赵澄东.自主轮式移动机器人纵横向目标路径规划仿真[J].计算机仿真,2019,36(6):306-309. 被引量：4
7段建民,陈强龙.利用先验知识的Q-Learning路径规划算法研究[J].电光与控制,2019,26(9):29-33. 被引量：11
8陈双,李龙,罗海南.基于神经网络的强化学习在服务机器人导航中的研究[J].现代计算机,2020,26(12):62-67.
9任剑锋,叶春明,杨枫.带时间窗的车间搬运机器人路径优化建模及算法研究[J].运筹与管理,2020,29(5):52-60. 被引量：15
10王鼎新.基于改进Q-learning算法的AGV路径规划[J].电子设计工程,2021,29(4):7-10. 被引量：14

同被引文献53

1胡晓辉.一种基于动态参数调整的强化学习动作选择机制[J].计算机工程与应用,2008,44(28):29-31. 被引量：6
2暴励,曾建潮.自适应搜索空间的混沌蜂群算法[J].计算机应用研究,2010,27(4):1330-1334. 被引量：46
3夏炎,隋岩.PRM路径规划算法优化研究[J].应用科技,2010,37(10):1-5. 被引量：11
4余翔,张海波,杨路.混合D2D蜂窝网络中基于模拟退火算法的资源调度策略[J].电信科学,2017,33(4):71-77. 被引量：6
5马乃琦,吕蕾,刘一良.复杂场景下面向群体路径规划的改进人工蜂群算法[J].山东师范大学学报（自然科学版）,2017,32(4):16-23. 被引量：6
6陶静,朱琦.基于NOMA的D2D通信联合子信道与功率分配算法[J].南京邮电大学学报（自然科学版）,2018,38(3):32-39. 被引量：5
7邹善席,王品,韩旭.基于PRM改进的路径规划算法[J].组合机床与自动化加工技术,2019(1):1-3. 被引量：23
8段建民,陈强龙.利用先验知识的Q-Learning路径规划算法研究[J].电光与控制,2019,26(9):29-33. 被引量：11
9宋宇,王志明.基于改进遗传算法的移动机器人路径规划[J].现代电子技术,2019,42(24):172-175. 被引量：30
10汪旭,高波,安馗.新零售视角下贵州农资物流配送模式研究[J].物流科技,2020,43(1):45-47. 被引量：2

引证文献6

1卢国强.基于增量Q学习的在线优化控制算法[J].汽车实用技术,2023,48(15):165-171.
2闫振.移动机器人路径规划算法分析[J].传感器世界,2023,29(8):1-8. 被引量：1
3邓毅,廖秋丽.基于改进瞪羚优化算法的机器人路径规划[J].机械设计与制造工程,2024,53(1):51-54. 被引量：1
4徐会彬.联合功率控制和信道分配的蜂窝网络能效优化算法[J].电信科学,2024,40(2):38-46. 被引量：1
5王立勇,王弘轩,苏清华,王绅同,张鹏博.基于改进Q-Learning的移动机器人路径规划算法[J].电子测量技术,2024,47(9):85-92.
6张吉哲,刘欢,代永强,秦立静,支永坤.基于学习型算法的农资配送优化问题研究[J].软件导刊,2024,23(9):122-130.

二级引证文献3

1李文献.基于大数据技术和人工智能技术的配电网优化措施研究[J].无线互联科技,2023,20(23):103-106. 被引量：1
2班云飞,张达敏,左锋琴,沈倩雯.精英反向学习及柯西扰动引导的瞪羚优化算法[J].国外电子测量技术,2024,43(7):1-13.
3高杰,尚羽佳.工业自动化能效优化方法[J].仪器仪表标准化与计量,2024(4):1-4.

1王明强.论概念设计与结构措施在建筑结构设计中的应用[J].中文科技期刊数据库（全文版）工程技术,2021(8):228-229.
2冯涛.小学语文课堂小组合作学习现状研究[J].中文科技期刊数据库（全文版）教育科学,2022(1):44-47.
3刘清,许汪俊彤,刘正余.一种融合梯度信息的粒子群优化算法[J].佳木斯大学学报（自然科学版）,2023,41(1):16-20. 被引量：1
4张耀玉,李彩虹,张国胜,李永迪,梁振英.基于改进Q-learning算法的移动机器人局部路径规划[J].山东理工大学学报（自然科学版）,2023,37(2):1-6. 被引量：3
5刘康宁,丁春嵘,吕崇伟.基于因子图优化的激光SLAM[J].兵工自动化,2023,42(1):92-96.
6李伟东,李乐.基于改进RRT算法的无人车路径规划[J].计算机测量与控制,2023,31(1):160-166. 被引量：8
7唐雨婷,李雪峰,张金学,刘尚为,杨瑞.基于深度学习和Q学习的机械臂功能设计与实现[J].长江信息通信,2023,36(2):97-99. 被引量：2
8王卉,唐文,蒋晔,曾綦.交通枢纽站安全用能预警策略研究[J].上海节能,2023(3):258-263.
9王远国,俞海兵,李云臣,卓廉程,曹洋.基于改进人工蜂群算法的核电巡检机器人路径优化策略设计[J].电子设计工程,2023,31(6):70-74. 被引量：2
10郭玉帆,沈世全,刘冠颖,古鸿吉,高顺.加权双Q学习算法优化的PHEV能量管理策略研究[J].重庆理工大学学报（自然科学）,2023,37(2):86-96. 被引量：1

制造业自动化

2023年第3期

浏览历史

内容加载中请稍等...

基于改进强化学习的机器人路径规划研究被引量：6

参考文献8

二级参考文献71

共引文献102

同被引文献53

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进强化学习的机器人路径规划研究 被引量：6

参考文献8

二级参考文献71

共引文献102

同被引文献53

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进强化学习的机器人路径规划研究被引量：6