基于增强学习算法的AGV导航研究

Research on AGV navigation based on reinforcement learning algorithm

下载PDF

导出

摘要 AGV(Automated Guided Vehicle)导航问题是一个连续状态空间问题,直接应用传统表格型增强学习方法存在维数灾难和学习效率低等问题。近年来,近似强化学习和策略梯度算法等增强学习方法的提出和改进为有效解决维数灾难和泛化问题以及AGV反应导航问题提供新的方法和手段。文中首先分析了AGV的运动环境模型,并建立了马尔可夫决策过程模型。在此基础上结合神经网络和策略梯度下降法,提出了一种基于Actor-Critic算法框架的AGV导航算法,并利用Matlab仿真验证了算法的适用性。 AGV(Automated Guided Vehicle)navigation problem is a continuous state space problem.Direct application of traditional tabular reinforcement learning method has encountered problems such as dimension disaster,low learning efficiency etc.In recent years,the present and improvement of reinforcement learning methods such as approximate reinforcement learning and strategy gradient algorithm provide new methods and means to effectively solve dimension disaster and generalization problems,as well as AGV response navigation problems.Firstly,this paper analyzes the movement environment model of AGV and establishes the Markov decision processes model.Based on the above,combined with neural network and strategy gradient descent method,an AGV navigation algorithm based on Actor-Critic algorithm framework is put forward,and the applicability of the algorithm is verified by applying Matlab simulation.

作者王翔吴洪明周星 Wang Xiang;Wu Hongming;Zhou Xing

机构地区武汉理工大学

出处《起重运输机械》 2019年第12期40-45,共6页 Hoisting and Conveying Machinery

关键词增强学习算法 AGV导航马尔可夫决策 MATLAB仿真 reinforcement learning algorithm AGV navigation Markov decision Matlab simulation

分类号 TH242 [机械工程—机械制造及自动化]

引文网络
相关文献

参考文献1

1陆军,徐莉,周小平.强化学习方法在移动机器人导航中的应用[J].哈尔滨工程大学学报,2004,25(2):176-179. 被引量：8

二级参考文献7

1WATKINS C J,DAYAN P.Q-learning [J].Machine Learning,1992,8(3):279-292.
2SINGH S,JAAKKOLA T.Convergence results for singlestep on-policy reinforcement learning algorithms [J].Machine Learning,2000,39:287-308.
3张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
4陆军,张秀梅,李殿璞,华克强.CMAC神经网络模糊控制器设计[J].电子技术应用,2000,26(7):35-37. 被引量：4
5陈焕文,谢丽娟,谢建平.一类值函数激励学习的遗忘算法[J].计算机研究与发展,2001,38(4):487-494. 被引量：14
6陈卫东,席裕庚,顾冬雷.自主机器人的强化学习研究进展[J].机器人,2001,23(4):379-384. 被引量：16
7陈卉,周萍,欧阳楷.小脑模型CMAC网络结构及有关参数的确定[J].计算机工程,2003,29(2):252-254. 被引量：12

共引文献7

1杨立苹,洪炳镕,周浦城.基于Motor Schema的移动机器人反应式导航[J].哈尔滨商业大学学报（自然科学版）,2005,21(5):612-614.
2徐明亮,柴志雷,须文波.移动机器人模糊Q-学习沿墙导航[J].电机与控制学报,2010,14(6):83-88. 被引量：7
3盛维涛,张文君,张建兴.基于神经网络的Q学习在Khepera Ⅱ机器人避障中的应用[J].世界科技研究与发展,2013,35(3):374-376.
4董培方,张志安,梅新虎,朱朔.引入势场及陷阱搜索的强化学习路径规划算法[J].计算机工程与应用,2018,54(16):129-134. 被引量：16
5邹启杰,刘世慧,张跃,侯英鹂.基于强化学习的快速探索随机树特殊环境中路径重规划算法[J].控制理论与应用,2020,37(8):1737-1748. 被引量：24
6阳杰,张凯.基于区域扩张策略的势场强化学习算法路径规划研究[J].微处理机,2021,42(1):47-51.
7疏利生,李桂芳,嵇胜.基于强化学习的航空器机场智能静态路径规划[J].航空工程进展,2021,12(3):65-70. 被引量：6

1陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳.基于经验指导的深度确定性多行动者-评论家算法[J].计算机研究与发展,2019,56(8):1708-1720. 被引量：6
2王文飒,梁军,陈龙,陈小波,朱宁,华国栋.基于深度强化学习的协同式自适应巡航控制[J].交通信息与安全,2019,37(3):93-100. 被引量：8
3周翼,陈渤.一种改进dueling网络的机器人避障方法[J].西安电子科技大学学报,2019,46(1):46-50. 被引量：5
4柯丰恺,周唯倜,赵大兴.优化深度确定性策略梯度算法[J].计算机工程与应用,2019,55(7):151-156. 被引量：10
5杨海清,徐勇军,王明雪.基于深度强化学习和循环卷积神经网络的图像恢复算法[J].高技术通讯,2019,29(5):432-437. 被引量：8
6张晴,李云,李文举,林家骏,肖莽,陈飞云.融合深度特征和多核增强学习的显著目标检测[J].中国图象图形学报,2019,24(7):1096-1105. 被引量：14
7曹建国.张衡反谶思想析论——兼论谶纬研究中的泛化问题[J].哲学研究,2019,0(8):75-84. 被引量：4
8邱柏宽.了解高中数学特点加强高中数学学习[J].数理化解题研究,2019,0(18):21-22.
9减负不减责松绑不松懈[J].新长征,2019,0(7):33-33.
10王一丁,赵晨爽.优化视觉聚焦点的手背静脉识别方法[J].计算机测量与控制,2019,27(7):200-204. 被引量：3

起重运输机械

2019年第12期

浏览历史

内容加载中请稍等...

基于增强学习算法的AGV导航研究

参考文献1

二级参考文献7

共引文献7

相关作者

相关机构

相关主题

浏览历史