基于多智能体深度强化学习的无人机路径规划被引量：2

UAV Path Planning Based on Multi-agent Deep Reinforcement Learning

下载PDF

导出

摘要为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. To solve the path planning problem of multi-unmanned aerial vehicle(UAV)in complex environment,a multi-agent deep reinforcement learning UA V path planning framework was proposed.First,the path planning problem was modeled as a partially observable Markov decision process,and then,it was extended to multi-agent by using the proximal strategy optimization algorithm.Specifically,the multi-UAV barrier free path planning was achieved by designing the UAV's state observation space,action space and reward function.Moreover,to adapt to the limited computing resource conditions of UAVs,a network pruning-based multi-agent proximal policy optimization(NP-MAPPO)algorithm was proposed,which improved the training efficiency.Simulations verify the effectiveness of the proposed multi-UAV path planning framework under various parameter configurations and the superiority of NP-MAPPO algorithm in training time.

作者司鹏搏吴兵杨睿哲李萌孙艳华 SI Pengbo;WU Bing;YANG Ruizhe;LI Meng;SUN Yanhua(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学信息学部

出处《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期449-458,共10页 Journal of Beijing University of Technology

基金国家自然科学基金资助项目(61901011) 北京市教育委员会科技项目(KM202010005017,KM202110005021)。

关键词无人机(unmanned aerial vehicle UAV) 复杂环境路径规划马尔可夫决策过程多智能体近端策略优化算法(multi-agent proximal policy optimization MAPPO) 网络剪枝(network pruning NP) unmanned aerial vehicle(UAV) complex environment path planning Markov decision process multi-agent proximal policy optimization(MAPPO)algorithm network pruning(NP)

分类号 U461 [机械工程—车辆工程] TP308 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1Tong GUO,Nan JIANG,Biyue LI,Xi ZHU,Ya WANG,Wenbo DU.UAV navigation in high dynamic environments:A deep reinforcement learning approach[J].Chinese Journal of Aeronautics,2021,34(2):479-489. 被引量：9

二级参考文献3

1Ouyang Jian,Zhuang Yi,Lin Min,Liu Jia.Optimization of beamforming and path planning for UAV-assisted wireless relay networks[J].Chinese Journal of Aeronautics,2014,27(2):313-320. 被引量：14
2Yao Peng,Wang Honglun,Su Zikang.UAV feasible path planning based on disturbed fluid and trajectory propagation[J].Chinese Journal of Aeronautics,2015,28(4):1163-1177. 被引量：18
3Yang LIU,Xuejun ZHANG,Yu ZHANG,Xiangmin GUAN.Collision free 4D path planning for multiple UAVs based on spatial refined voting mechanism and PSO approach[J].Chinese Journal of Aeronautics,2019,32(6):1504-1519. 被引量：20

共引文献8

1Zijian HU,Xiaoguang GAO,Kaifang WAN,Yiwei ZHAI,Qianglong WANG.Relevant experience learning:A deep reinforcement learning method for UAV autonomous motion planning in complex unknown environments[J].Chinese Journal of Aeronautics,2021,34(12):187-204. 被引量：14
2顾玉宛,杨秋媛,竺智华,徐守坤.连续状态空间下机器人避障方法研究[J].常州大学学报（自然科学版）,2023,35(1):68-77.
3薛镇涛,陈建,张自超,刘旭赞,苗宪盛,胡贵.基于复杂地块凸划分优化的多无人机覆盖路径规划[J].航空学报,2022,43(12):397-411. 被引量：6
4成旭明,丛玉华,欧阳权,王志胜.基于IMM-PPO的无人机机动目标追踪[J].弹箭与制导学报,2022,42(6):46-54.
5杨友波,张目,唐俊,雷印杰.基于深度确定性策略梯度强化学习算法的航迹规划研究[J].现代计算机,2023,29(5):1-7. 被引量：1
6王昱,任田君,范子琳.基于引导Minimax-DDQN的无人机空战机动决策[J].计算机应用,2023,43(8):2636-2643.
7雷刚,罗炜,李云舒,赖灿辉.高超声速滑翔飞行器多禁飞区再入机动航迹优化[J].航空学报,2023,44(15):371-386.
8Fei WANG,Xiaoping ZHU,Zhou ZHOU,Yang TANG.Deep-reinforcement-learning-based UAV autonomous navigation and collision avoidance in unknown environments[J].Chinese Journal of Aeronautics,2024,37(3):237-257.

同被引文献35

1陈丽,陈洋,杨艳华.面向三维结构视觉检测的无人机覆盖路径规划[J].电子测量与仪器学报,2023,37(2):1-10. 被引量：7
2荆学东,杜黎童,王旭飞.多旋翼无人机航迹规划算法[J].船舶工程,2023,45(2):140-144. 被引量：1
3袁建华,李尚.无人机三维路径规划及避障方法[J].信息与控制,2021,50(1):95-101. 被引量：17
4毕可心,吴明功,张文斌,温祥西,杜坎.基于速度障碍法的飞行冲突网络建模与分析[J].系统工程与电子技术,2021,43(8):2163-2173. 被引量：6
5丛玉华,赵宗豪,邢长达,王志胜.基于改进人工势场的无人机动态避障路径规划[J].兵器装备工程学报,2021,42(9):170-176. 被引量：18
6洪晓斌,徐郑攀,魏新勇,朱坤财,陈远明.基于改进速度障碍法的水面无人艇动态避障[J].光学精密工程,2021,29(9):2126-2139. 被引量：9
7许文瑶,贺继林.基于改进速度障碍法的水下机器人动态避障[J].电光与控制,2021,28(12):86-90. 被引量：11
8郑新科,钮焱,李军.基于改进SSD算法的遥感图像目标检测研究[J].激光杂志,2022,43(7):106-112. 被引量：2
9张瑞鑫,王伟,田泽,张伟.基于模型约束A^(*)算法的无人机三维航迹规划[J].国外电子测量技术,2022,41(9):163-169. 被引量：6
10詹华伟,邹昊好,刘旭,史水娥.基于改进SSD算法的交通标识检测方法研究[J].电子测量技术,2022,45(17):79-85. 被引量：3

引证文献2

1侯晨曦.基于滚动速度障碍法的无人机山地航测避障路径规划研究[J].计算机测量与控制,2024,32(3):232-238.
2张恪莱.改进SSD算法的无人喷雾机避障路径规划[J].自动化与仪器仪表,2024(3):63-66.

1周子垚,刘庆玲,陶剑英,林云.智能6G:网络的边缘部署和轻量化[J].移动通信,2023,47(2):1-7. 被引量：1
2张舒啸,施琦,陈雯,余金培.一种基于在轨深度学习的压缩率确定方法[J].上海航天（中英文）,2023,40(1):117-122.
3吴梓宏,梁兆楷.基于FPGA的卷积神经网络优化压缩技术研究[J].微型电脑应用,2023,39(2):143-146.
4叶汉民,李志波,程小辉,周颖慧.基于稀疏化卷积网络剪枝的图像识别方法研究[J].实验室研究与探索,2022,41(12):9-13.
5宁雨舟,赵蕊.基于改进蚁群算法的物流无人机路径规划[J].电子技术与软件工程,2023(2):142-146. 被引量：1
6张丽丽,黄辰,杜宇飞.基于改进A^(*)算法的无人机路径规划研究[J].电子制作,2023,31(5):81-83. 被引量：3
7张姝,汤淼.改进PSO算法及在无人机路径规划中的应用[J].计算机系统应用,2023,32(3):330-337. 被引量：3
8李晓峰,任杰,李东.基于深度强化学习的移动机器人视觉图像分级匹配算法[J].吉林大学学报（理学版）,2023,61(1):127-135. 被引量：1
9陈炳昊,孔勇.美国《基础设施韧性规划框架》解读[J].中国信息化,2023(2):37-42.
10聂瑶.浅谈智能化趋势下的城市交通规划发展构想[J].中文科技期刊数据库（文摘版）工程技术,2021(11):0323-0324.

北京工业大学学报

2023年第4期

浏览历史

内容加载中请稍等...

基于多智能体深度强化学习的无人机路径规划被引量：2

参考文献1

二级参考文献3

共引文献8

同被引文献35

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多智能体深度强化学习的无人机路径规划 被引量：2

参考文献1

二级参考文献3

共引文献8

同被引文献35

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多智能体深度强化学习的无人机路径规划被引量：2