面向智能避障场景的深度强化学习研究被引量：2

Research on Deep Reinforcement Learning for Intelligent Obstacle Avoidance Scenarios

下载PDF

导出

摘要研究基于深度强化学习技术的避障场景的算法模型设计,采用改进的深度Q网络(Deep Q-learning Network,DQN)算法克服了Q-learning表格式算法在连续状态下导致内存不足的局限性。鉴于学习过程中奖励稀疏导致很难获得较好结果的情况,改进奖励机制,增加实时奖惩作为补充,解决学习耗时长和训练不稳定的问题;采用相对角度、位置和距离等信息,相比绝对坐标信息可以更有效的躲避障碍物。不同于基于栅格法/可视图法等传统人为策略避障算法,深度强化学习算法DQN能够在缺乏先验知识的条件下具备自主决策能力,因此适用性更强。该技术可应用在仓储无人车、巡检机器人、无人机等现实场景。 It researched the design of algorithmic models for obstacle avoidance scenarios using deep reirfforcement learning techniques,and adopted an improved Deep Q-learning Network （DQN） algorithm to overcome the problem of the Q-learning table format algorithm which leads to insufficient memory in continuous state.In view of rewarding sparseness in the learning process makes it difficult to obtain better results, to improve the reward mechanism, increased real-time rewards and punishments as a supplement to solve the problem of long learning time and unstable training;use information such as relative angle, position,and distance to avoid obstacles more eft）etively than absolute coordinate irfformation. Dift）rent from the traditional human strategy obstacle avoidance algorithm, such as grid method/visibility include, deep reirfforeement learn-ing algorithm DQN has the capability of autonomous decision-making under the condition of lack of prior knowledge, so it has stronger adaptability. The technology can be applied in the storage of unmanned vehicles,inspection robots,drones and othor ronlistio soonnrios

作者刘庆杰林友勇李少利 LIU Qing-jie;LIN You-yong;LI Shao-li(CETHIK Research Institute,Hangzhou 310012,China)

机构地区中电海康集团研究院

出处《智能物联技术》 2018年第2期18-22,共5页 Technology of Io T& AI

关键词深度强化学习 DQN 自主决策避障 deep reirfforcement learning DQN auto-decision obstacle avoidance

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1时巧,李财,邓渊.智能巡线小车的设计[J].微型机与应用,2015,34(9):78-80. 被引量：10
2徐国华,谭民.移动机器人的发展现状及其趋势[J].机器人技术与应用,2001(3):7-14. 被引量：191
3乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
4李伟.在未知环境中基于模糊逻辑的移动机器人行为控制[J].控制理论与应用,1996,13(2):153-162. 被引量：16
5梁宏倩.多智能体系统中强化学习模型的改进及应用[J].西安文理学院学报（自然科学版）,2008,11(2):93-96. 被引量：1
6李保国,张春熹.双轮移动机器人安全目标追踪与自动避障算法[J].控制理论与应用,2007,24(4):535-540. 被引量：13

二级参考文献21

1史忠植.智能主体及其应用[M].北京:科学出版社,2001.7-11.
2刘彬,谭建平,黄长征.一种改进PID控制算法的研究与应用[J].微计算机信息,2007(06S):15-17. 被引量：18
3李伟，Proc of Fuzzy.IEEE’94，1994年
4李伟，Proc of the 1994 IEEE/RSJ Int Conf on Intelligent Robots and Systems，1994年
5范玉顺曹军威.多Agent系统理论、方法与应用[M].北京:清华大学出版社,2002..
6何炎强陈莘明著.Agent和多Agent系统的设计与应用[M].武汉:武汉大学出版社,2001..
7KIM Doh-Hyun, OHJun-Ho. Globally asymptotically stable tracking control of mobile robots[C]//Proc of IEEE Int Confon Control Applications. New York: IEEE Press, 1998:1297 - 1301.
8LEE Sungon, YOUM Y, CHUNG Wank-yun. Control of car-like mobile robots for posture stabilization[C] // Proc of IEEE Int Conf on Intelligent Robotics and Systems. New York: IEEE Press, 1999:1745 - 1749.
9PEI Xinzhe, LIU Zhiyuan, PEI Run. Practical stabilization of wheeled mobile robots based on control Lyapunov function[C] //Proc of IEEE Int Conf on Control Applications. New York: IEEE Press, 2002:345 - 349.
10SAMSON C, AIT-ABDERRAHIM K. Feedback control of a nonholonomic wheeled cart in Cartesian space[C] // Proc of IEEE Int Conf on Robotics and Automation. New York: IEEE Press, 1991: 1136- 1141.

共引文献250

1郑亚君,薛磊,董璐,王庆领.基于UWB定位技术的多移动机器人编队控制[J].智能科学与技术学报,2019,1(1):83-87.
2董康兴,包振山,任智慧,温鹏云.智能井场巡检机器人结构设计[J].机械设计,2022,39(S02):31-34. 被引量：4
3汪中原.基于5G技术的智能机器人技术[J].电子技术（上海）,2020(3):54-55. 被引量：1
4李佳宁,易建强,赵冬斌,西广成.移动机器人体系结构研究进展[J].机器人,2003,25(z1):756-760. 被引量：7
5王树国,付宜利.我国特种机器人发展战略思考[J].自动化学报,2002,28(S1):70-76. 被引量：10
6张华,邱波,王亚涛,刘冉.巡检机器人中二维条码的设计与应用[J].华中科技大学学报（自然科学版）,2008,36(S1):265-268. 被引量：2
7季浚涛.两轮自平衡避障机器人[J].科技信息,2013,0(34):252-253.
8庄健,王孙安.基于人工免疫网络机器人路径规划算法的进一步研究[J].系统仿真学报,2004,16(5):1017-1019. 被引量：12
9乔凤斌,杨汝清.六轮移动机器人爬楼梯能力分析[J].机器人,2004,26(4):301-305. 被引量：39
10乔凤斌,谢霄鹏,杨汝清.六轮移动机器人包容地形研究[J].机械设计与研究,2004,20(5):17-19. 被引量：6

同被引文献33

1冯尚友.信息熵与最大熵原理[J].水利电力科技,1995,22(3):24-29. 被引量：12
2梁宵,王宏伦,李大伟,吕文涛.基于流水避石原理的无人机三维航路规划方法[J].航空学报,2013,34(7):1670-1681. 被引量：22
3陈伟锋,邵之江.基于析取关系直接变换的冲突解脱方法[J].航空学报,2014,35(4):1122-1133. 被引量：4
4王渊,孙秀霞,刘树光,徐光智,常允刚.基于改进人工蜂群算法的多机飞行冲突解脱策略[J].空军工程大学学报（自然科学版）,2014,15(3):10-14. 被引量：11
5TANG Xian-lun,LI La-mei,JIANG Bo-jie.Mobile robot SLAM method based on multi-agent particle swarm optimized particle filter[J].The Journal of China Universities of Posts and Telecommunications,2014,21(6):78-86. 被引量：7
6王宏伦,姚鹏,梁宵,吕文涛.基于流水避石原理的无人机三维航路规划[J].电光与控制,2015,22(10):1-6. 被引量：7
7方旭,刘金琨.四旋翼无人机三维航迹规划及跟踪控制[J].控制理论与应用,2015,32(8):1120-1128. 被引量：25
8曾国奇,赵民强,刘方圆,丁文锐.基于网格PRM的无人机多约束航路规划[J].系统工程与电子技术,2016,38(10):2310-2316. 被引量：21
9王祝,刘莉,龙腾,温永禄.基于罚函数序列凸规划的多无人机轨迹规划[J].航空学报,2016,37(10):3149-3158. 被引量：26
10邴丽媛,刘智,蒋余成.基于模糊神经网络的电力巡线无人机避障技术研究[J].长春理工大学学报（自然科学版）,2017,40(3):98-102. 被引量：18

引证文献2

1单麒源,张智豪,张耀心,余宗祥.基于SAC算法的矿山应急救援智能车快速避障控制[J].黑龙江科技大学学报,2021,31(1):14-20. 被引量：6
2张宏宏,甘旭升,毛亿,杨春林,谢晓伟.无人机避障算法综述[J].航空兵器,2021,28(5):53-63. 被引量：26

二级引证文献32

1王羿,叶辉,杨晓飞.基于无源性与势场法的四旋翼避障与位置控制[J].航空学报,2023,44(S01):225-235. 被引量：1
2沈悦,陈璟,周子涵,杨达.车联网环境下自动驾驶车辆动态障碍物协作避让模型[J].交通运输工程与信息学报,2021,19(4):13-23. 被引量：4
3涂柯,侯宏录,苏炜.改进人工势场法的无人机避障路径规划[J].西安工业大学学报,2022,42(2):170-177. 被引量：19
4王培毅,伍刚,邢志斌.森防垂起无人机飞行过程中主动安全性技术研究[J].消防界（电子版）,2022,8(14):51-53. 被引量：1
5缑永涛,李文博,段学锋.基于无人机的路桥病害检测系统[J].测绘通报,2022(12):141-146. 被引量：2
6徐建华,邵康康,王佳惠,刘学聪.基于改进强化学习的移动机器人动态避障方法[J].中国惯性技术学报,2023,31(1):92-99. 被引量：6
7李永迪,李彩虹,张耀玉,张国胜.基于改进SAC算法的移动机器人路径规划[J].计算机应用,2023,43(2):654-660. 被引量：7
8冒燕,杨家鼎,徐小强.基于改进速度障碍算法的无人机反侦察路径规划研究[J].弹箭与制导学报,2022,42(6):13-19. 被引量：2
9齐国元,陈浩.基于观测器的四旋翼控制-抗扰-避障一体化[J].吉林大学学报（工学版）,2023,53(3):810-822.
10田小壮,李松,付国萍,谭启昀,单德帅,王伟光,王祝.时间最优的无人机巡检避障路径规划[J].计算机与现代化,2023(3):43-47. 被引量：5

1程向红,祁艺.基于栅格法的室内指示路径规划算法[J].中国惯性技术学报,2018,26(2):236-240. 被引量：50
2赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：63
3邢雪,于德新,田秀娟,王世广.结合可视图的多状态交通流时间序列特性分析[J].物理学报,2017,66(23):51-59. 被引量：13
4美军在制式背包中携带小型无人车(SUGV)[J].国外坦克,2018,0(9).
5廖芙蓉,赵文超,李俊,蔡彦楠.基于ATmega16高精度智能避障小车的设计[J].煤矿机械,2018,39(10):19-21. 被引量：2
6邵伟伟,骆正磊.改进的可视图法在路径规划中的运用[J].南阳师范学院学报,2018,17(4):38-42. 被引量：17
7陈俊龙,牛月.市场不确定性、政府规制与产能过剩分析[J].软科学,2018,32(10):38-42. 被引量：8
8美军班多用途装备输送无人车伴随士兵巡逻[J].国外坦克,2018,0(9):28-29.
9刘浏.浅论无人艇的发展及公安行业应用前景[J].中国安全防范技术与应用,2018,0(5):25-27. 被引量：1
10薛天.深度强化学习原理及其在机器人运动控制中的运用[J].通讯世界,2018,25(8):240-241. 被引量：3

智能物联技术

2018年第2期

浏览历史

内容加载中请稍等...

面向智能避障场景的深度强化学习研究被引量：2

参考文献6

二级参考文献21

共引文献250

同被引文献33

引证文献2

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

面向智能避障场景的深度强化学习研究 被引量：2

参考文献6

二级参考文献21

共引文献250

同被引文献33

引证文献2

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

面向智能避障场景的深度强化学习研究被引量：2