基于时空图注意力网络的服务机器人动态避障

Dynamic Obstacle Avoidance for Service Robots Based on Spatio-Temporal Graph Attention Network

下载PDF

导出

摘要为了解决服务机器人在具有自主决策能力的密集人群中容易发生碰撞、假死和路径不自然等问题,在深度强化学习的框架下提出基于时空图注意力网络的服务机器人动态避障算法。时空图注意力网络作为邻近策略优化(PPO)算法的决策函数,首先采用门控循环单元控制机器人对环境的记忆和遗忘程度,提取环境的时间特征,使其对行人运动趋势有一定的预测作用;然后采用图注意力网络获取机器人和行人在空间上的隐式交互特征,使机器人能寻找无碰撞路径;最后在PPO算法中对时空图注意力网络进行训练,使得机器人在人群中完成无碰撞导航任务。在人均2.5 m^(2)的动态封闭环境中对算法进行实验验证,结果表明,与非学习型的动态窗口算法相比,该算法导航成功率提高71个百分点,与基于学习型的DSRNN-RL算法相比,该算法导航成功率提高3个百分点同时导航路径更短。Gazebo环境下的实时导航测试结果表明,所提算法的平均推理时间为21.90 ms,可以满足实时导航的要求。 To solve the problems of collision,freezing,and the unnatural paths of service robots in dense crowds with autonomous decision-making ability,this study proposes a dynamic obstacle avoidance algorithm for service robots based on spatio-temporal graph attention network under the framework of Deep Reinforcement Learning(DRL).Spatio-temporal graph attention network represents the decision function of Proximal Policy Optimization(PPO)algorithm.First,the algorithm uses a Gated Recurrent Unit(GRU)to control the degree of memory and forgetting of the robot with respect to its environment and then extracts the time characteristics of that environment.This ensures the robot has a certain predictive effect on the movement trend of pedestrians.Second,the algorithm uses graph attention networks to obtain the spatially implicit interaction features between robots and pedestrians,enabling the robot to locate collision-free paths.Finally,the spatio-temporal graph attention network is trained under the PPO algorithm,which enables the robot to realize collision-free navigation tasks in a crowd.The algorithm is verified by simulation experiments in a dynamic closed environment of 2.5 m^(2)per capita.Compared with the non-learning Dynamic Window Algorithm(DWA),the navigation success rate of the proposed algorithm is improved by 71 percentage points.In addition,compared with the learning-type DSRNN-RL algorithm,the navigation success rate of the proposed algorithm is improved by 3 percentage points and the navigation path is shorter.Finally,a real-time navigation test in the Gazebo environment shows that the average inference time of the algorithm is 21.90 ms,which meets the requirements of real-time navigation.

作者杜海军余粟 DU Haijun;YU Su(School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区上海工程技术大学电子电气工程学院

出处《计算机工程》 CAS CSCD 北大核心 2024年第2期105-112,共8页 Computer Engineering

基金上海市科委科研计划项目(17511110204)。

关键词服务机器人动态避障深度强化学习时空图注意力网络实时导航 service robot dynamic obstacle avoidance Deep Reinforcement Learning(DRL) spatio-temporal graph attention network real-time navigation

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1Kai Zhu,Tao Zhang.Deep Reinforcement Learning Based Mobile Robot Navigation:A Review[J].Tsinghua Science and Technology,2021,26(5):674-691. 被引量：20
2孙世光,兰旭光,张翰博,郑南宁.基于模型的机器人强化学习研究综述[J].模式识别与人工智能,2022,35(1):1-16. 被引量：5
3张瀚,解明扬,张民,伍乃骐.融合DDPG算法的移动机器人路径规划研究[J].控制工程,2021,28(11):2136-2142. 被引量：9
4刘国名,李彩虹,李永迪,张国胜,张耀玉,高腾腾.基于改进PPO算法的机器人局部路径规划[J].计算机工程,2023,49(2):119-126. 被引量：4
5王健宗,孔令炜,黄章成,肖京.图神经网络综述[J].计算机工程,2021,47(4):1-12. 被引量：26
6孙立香,孙晓娴,刘成菊,靖文.人群环境中基于深度强化学习的移动机器人避障算法[J].信息与控制,2022,51(1):107-118. 被引量：20
7胡琴,赵一亭,夏方平,张鹏.基于Soft-Actor-Critic算法的机器人局部路径规划算法[J].武汉理工大学学报,2021,43(9):79-84. 被引量：4

二级参考文献34

1Li Chen,Nan Ma,Patrick Wang,Jiahong Li,Pengfei Wang,Guilin Pang,Xiaojun Shi.Survey of Pedestrian Action Recognition Techniques for Autonomous Driving[J].Tsinghua Science and Technology,2020,25(4):458-470. 被引量：4
2樊长虹,陈卫东,席裕庚.动态未知环境下一种Hopfield神经网络路径规划方法[J].控制理论与应用,2004,21(3):345-350. 被引量：16
3张帆,Guilherme S.Pereira,Vijay Kumar.Cooperative Localization and Tracking in Distributed Robot-Sensor Networks[J].Tsinghua Science and Technology,2005,10(1):91-101. 被引量：3
4王牛,李祖枢,李永龙,潘娅.带驱动直流电机两轮机器人运动系统仿真[J].系统仿真学报,2008,20(17):4633-4638. 被引量：7
5朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：322
6康亮,赵春霞,郭剑辉.基于模糊滚动RRT算法的移动机器人路径规划[J].南京理工大学学报,2010,34(5):642-648. 被引量：29
7黄鹏,刘箴.一种RVO碰撞避免的人群仿真研究[J].计算机仿真,2012,29(11):34-37. 被引量：6
8戴晓晖,李敏强,寇纪淞.遗传算法理论研究综述[J].控制与决策,2000,15(3):263-268. 被引量：93
9杜梅,顾国昌.基于栅格的自由区域连通网络的机器人路径规划方法[J].哈尔滨工程大学学报,1995,16(2):49-53. 被引量：2
10霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：140

共引文献81

1张骁雄,杨琴琴,何浩然,丁鲲.面向俄乌冲突的时序知识图谱推理系统设计与实现[J].网络安全与数据治理,2023,42(S01):157-162.
2刘行,黄庭安,董云龙,沈檀.基于示教融合的深度强化学习机器人化齿轮装配算法[J].控制工程,2023,30(7):1308-1316.
3刘紫燕,杨模,袁浩,梁静,梁水波,孙昊堃.结合拆分注意力机制和下一次预期观察的视觉导航[J].电子测量与仪器学报,2023,37(1):96-105. 被引量：1
4曾瑞,张海翔,马汉杰,蒋明峰,冯杰.基于图卷积的手势骨架生成[J].智能计算机与应用,2021,11(10):33-37.
5史运涛,党亚光,雷振伍,张荫芬,董哲.基于图神经网络的社区户内燃气系统动态风险评估[J].安全与环境工程,2021,28(5):1-9. 被引量：11
6梁琨,任依梦,尚余虎,张翼英,王聪.深度学习驱动的知识追踪研究进展综述[J].计算机工程与应用,2021,57(21):41-58. 被引量：12
7丁恒,任卫强,曹高辉.基于无监督图神经网络的学术文献表示学习研究[J].情报学报,2022,41(1):62-72. 被引量：5
8Jiahui Jin,Xiaoxuan Zhu,Biwei Wu,Jinghui Zhang,Yuxiang Wang.A Dynamic and Deadline-Oriented Road Pricing Mechanism for Urban Traffic Management[J].Tsinghua Science and Technology,2022,27(1):91-102. 被引量：1
9桓琦,谢小权,郭敏,曾颖明.针对深度强化学习导航的物理对抗攻击方法[J].信息安全研究,2022,8(3):212-222.
10刘君兰,张文博,姬红兵,朱明哲.无人机集群路径规划算法研究综述[J].航天电子对抗,2022,38(1):9-12. 被引量：11

1何承帅,张辉,吴顺凡,高云昊,高聪芬.核酸农药纳米递送系统研究进展[J].农药学学报,2023,25(6):1179-1197.
2胡陈晨,李冠霖,蓝天虹.基于激光导航路径识别的电力巡检智能机器人设计[J].信息记录材料,2023,24(12):140-142.
3张永祥,吴忠仕,简志祥.荧光影像在腹腔镜肝切除术中的应用进展[J].腹部外科,2024,37(1):13-16.
4张晓青,刘小舟,陈登.面向移动端图像分类的轻量级CNN优化[J].计算机工程与设计,2024,45(2):436-442. 被引量：1
5冯锋.浅谈雷达液位计故障处理与分析[J].石油化工自动化,2023,59(S01):104-105.
6陈欣悦,高陈强,陈旭,黄思翔.基于协同卷积的轻量级行为检测方法[J].重庆邮电大学学报（自然科学版）,2024,36(1):136-144.
7丁兆润,李家豪,陈晓文,李文峰,韩日畴,张祎.狄斯瓦螨唾液毒性蛋白VTP互作蛋白FABP的鉴定与功能分析[J].应用昆虫学报,2023,60(3):755-763.
8王欣.《哈克贝利·费恩历险记》的身份伪装叙事[J].外国语文研究（辑刊）,2023(1):221-231.
9葛动元,向文江,李健,刘恩辰,姚锡凡.基于机器视觉的电动汽车充电自动定位方法[J].吉林大学学报（工学版）,2023,53(12):3465-3471.
10邵延华,黄琦梦,梅艳莹,张晓强,楚红雨,吴亚东.一种基于多尺度的目标检测锚点构造方法[J].红外技术,2024,46(2):162-167. 被引量：1

计算机工程

2024年第2期

浏览历史

内容加载中请稍等...

基于时空图注意力网络的服务机器人动态避障

参考文献7

二级参考文献34

共引文献81

相关作者

相关机构

相关主题

浏览历史