基于元强化学习的无人机自主避障与目标追踪被引量：4

Autonomous Obstacle Avoidance and Target Tracking of UAV Based on Meta-Reinforcement Learning

下载PDF

导出

摘要针对传统深度强化学习在求解无人机自主避障与目标追踪任务时所存在的训练效率低、环境适应性差的问题,在深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中融入与模型无关的元学习(Model-Agnostic Meta-Learning,MAML),设计一种内外部元参数更新规则,提出了元深度确定性策略梯度(Meta-Deep Deterministic Policy Gradient,Meta-DDPG)算法,以提升模型的收敛速度和泛化能力.此外,在模型预训练部分构造基本元任务集以提升实际工程中的预训练效率.最后,在多种测试环境下对所提算法进行了仿真验证,结果表明基本元任务集的引入可使模型预训练效果更优,Meta-DDPG算法相比DDPG算法在收敛特性和环境适应性方面更有优势,并且元学习方法和基本元任务集对确定性策略强化学习具有通用性. There are some problems with traditional deep reinforcement learning in solving autonomous obstacle avoidance and target tracking tasks for unmanned aerial vehicles(UAV),such as low training efficiency and weak adaptability to variable environments. To overcome these problems,this paper designs an internal and external metaparameter update rule by incorporating Model-Agnostic Meta-Learning(MAML)into Deep Deterministic Policy Gradient(DDPG)algorithm and proposes a Meta-Deep Deterministic Policy Gradient(Meta-DDPG)algorithm inovder to improve the convergence speed and generalization ability of the model. Furthermore,the basic meta-task sets are constructed in the model’s pre-training stage to improve the efficiency of pre-training in practical engineering. Finally,the proposed algorithm is simulated and verified in Various testing environments. The results show that the introduction of the basic meta-task sets can make the model’s pre-training more efficient,Meta-DDPG algorithm has better convergence characteristics and environmental adaptability when compared with the DDPG algorithm. Furthermore,the meta-learning and the basic meta-task sets are universal to deterministic policy reinforcement learning.

作者江未来吴俊王耀南 JIANG Weilai;WU Jun;WANG Yaonan(College of Electrical and Information Engineering,Hunan Unviersity,Changsha 410082,China;National Engineering Research Center of Robot Visual Perception&Control Technology,Hunan University,Changsha 410082,China)

机构地区湖南大学电气与信息工程学院湖南大学机器人视觉感知与控制技术国家工程研究中心

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2022年第6期101-109,共9页 Journal of Hunan University:Natural Sciences

基金国家自然科学基金资助项目(61903133,61733004) 国家重点研发计划重点专项项目(2021YFC1910400) 江苏省重点研发计划项目(BE2020082-1)。

关键词元强化学习无人机自主避障目标追踪路径规划 meta-reinforcement learning Unmanned Aerial Vehicle(UAV) autonomous obstacle avoidance target tracking path planning

分类号 V249.1 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献3

1马小铭,靳伍银.基于改进蚁群算法的多目标路径规划研究[J].计算技术与自动化,2020,39(4):100-105. 被引量：25
2张耀中,许佳林,姚康佳,刘洁凌.基于DDPG算法的无人机集群追击任务[J].航空学报,2020,41(10):309-321. 被引量：28
3陆嘉猷,凌兴宏,刘全,朱斐.基于自适应调节策略熵的元强化学习算法[J].计算机科学,2021,48(6):168-174. 被引量：3

二级参考文献14

1王帅.煤矿井下基于Q-learning算法的移动机器人路径规划[J].现代电子技术,2008,31(24):106-108. 被引量：3
2邓万宇,郑庆华,陈琳,许学斌.神经网络极速学习方法研究[J].计算机学报,2010,33(2):279-287. 被引量：162
3Rongwei Gan,Qingshun Guo,Huiyou Chang,Yang Yi.Improved ant colony optimization algorithm for the traveling salesman problems[J].Journal of Systems Engineering and Electronics,2010,21(2):329-333. 被引量：22
4柳长安,鄢小虎,刘春阳,吴华.基于改进蚁群算法的移动机器人动态路径规划方法[J].电子学报,2011,39(5):1220-1224. 被引量：143
5史恩秀,陈敏敏,李俊,黄玉美.基于蚁群算法的移动机器人全局路径规划方法研究[J].农业机械学报,2014,45(6):53-57. 被引量：124
6霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：143
7裴振兵,陈雪波.改进蚁群算法及其在机器人避障中的应用[J].智能系统学报,2015,10(1):90-96. 被引量：48
8刘建华,杨建国,刘华平,耿鹏,高蒙.基于势场蚁群算法的移动机器人全局路径规划方法[J].农业机械学报,2015,46(9):18-27. 被引量：128
9罗德林,徐扬,张金鹏.无人机集群对抗技术新进展[J].科技导报,2017,35(7):26-31. 被引量：40
10鞠成恩,赵晓侠,王明兴,黎振红.基于遗传算法的目标追踪过程中路径规划研究[J].传感器与微系统,2018,37(6):112-114. 被引量：7

共引文献53

1曹明.一种解决专用道设置问题的分布式蚁群算法实现[J].科学技术创新,2021(4):66-69.
2何准,董文瀚,蔡鸣,李大东.基于DDPG的多旋翼无人机自主引导与跟踪方法[J].飞行力学,2021,39(2):63-69. 被引量：5
3张小龙,李燕,黄永良,卢峥松.基于改进蚁群算法的移动机器人路径规划[J].信息与电脑,2021,33(8):63-66. 被引量：2
4李波,越凯强,甘志刚,高佩忻.基于MADDPG的多无人机协同任务决策[J].宇航学报,2021,42(6):757-765. 被引量：24
5于洲,陈圣军,李小平.改进蚁群算法的研究综述[J].信息与电脑,2021,33(11):57-59. 被引量：4
6邹立岩,张明智,柏俊汝,武剑.无人机集群作战建模与仿真研究综述[J].战术导弹技术,2021(3):98-108. 被引量：25
7贾红涛,胡文娟.基于确定性策略梯度算法的机械臂控制模型构建及仿真[J].粘接,2021,47(9):151-154.
8陈中原,韦文书,陈万春.基于强化学习的多发导弹协同攻击智能制导律[J].兵工学报,2021,42(8):1638-1647. 被引量：16
9张子然,黄卫华,陈阳,章政,李梓远.基于双向搜索的改进蚁群路径规划算法[J].计算机工程与应用,2021,57(21):270-277. 被引量：10
10王国民,石智永,谢彬,庄海军,朱钊,周庆捷.基于调度优先级的主动配电网电压分区控制研究[J].湘潭大学学报（自然科学版）,2021,43(6):93-98. 被引量：3

同被引文献73

1谌海云,陈华胄,刘强.基于改进人工势场法的多无人机三维编队路径规划[J].系统仿真学报,2020,32(3):414-420. 被引量：37
2刘雷,刘大卫,王晓光,陈俊男,刘东兴.无人机集群与反无人机集群发展现状及展望[J].航空学报,2022,43(S01):4-20. 被引量：32
3王然然,魏文领,杨铭超,刘玮.考虑协同航路规划的多无人机任务分配[J].航空学报,2020(S02):24-35. 被引量：29
4唐帅文,周志杰,姜江,曹友,陈媛,叶燕清.考虑扰动的无人机集群协同态势感知一致性评估[J].航空学报,2020(S02):13-23. 被引量：12
5沈林成,霍霄华,牛轶峰.离散粒子群优化算法研究现状综述[J].系统工程与电子技术,2008,30(10):1986-1990. 被引量：56
6樊琼剑,杨忠,方挺,沈春林.多无人机协同编队飞行控制的研究现状[J].航空学报,2009,30(4):683-691. 被引量：102
7达正岳.多维视角下的古代汉语教学改革[J].齐齐哈尔师范高等专科学校学报,2013(4):117-118. 被引量：1
8马文来,术守喜,薛红芳.基于STM32的微型飞行器飞行稳定控制系统设计[J].实验室研究与探索,2015,34(7):122-124. 被引量：5
9罗德林,张海洋,谢荣增,吴顺祥.基于多agent系统的大规模无人机集群对抗[J].控制理论与应用,2015,32(11):1498-1504. 被引量：46
10符小卫,魏广伟,高晓光.不确定环境下多无人机协同区域搜索算法[J].系统工程与电子技术,2016,38(4):821-827. 被引量：36

引证文献4

1张旭东,李少波,李传江,张安思,杨磊.无人机集群综述:技术、挑战与未来[J].无线电工程,2023,53(7):1487-1501. 被引量：2
2韩明睿.无人机在乡村振兴精准农业中的应用研究——基于汉语语言多维视角选择[J].农机化研究,2024,46(8):211-215. 被引量：1
3宋倩,蓝俊欢,罗富贵,李明珍.基于强化学习的智能车避障决策算法[J].电子设计工程,2024,32(12):181-186.
4巨涛,王志强,刘帅,火久元,李启南.D3DQN-CAA:一种基于DRL的自适应边缘计算任务调度方法[J].湖南大学学报（自然科学版）,2024,51(6):73-85.

二级引证文献3

1温博,尹伟,李增辉,尤鹏杰,洪永彬,王海涛.基于稀疏重构的空域大目标背景下的小目标检测方法[J].无线电工程,2024,54(5):1162-1167.
2韩子硕,范喜全,郝齐.国内外无人机系统研究进展及应用[J].无线电工程,2024,54(5):1236-1246.
3王豫.农业机械电气自动化在精准农业中的应用与前景[J].农机使用与维修,2024(5):129-131.

1许小京,李东昱.移动机器人自主避障分析[J].汽车知识,2022,22(2):11-13.
2丁琦,邱才明,杨浩森,童厚杰.基于模型无关优化策略的风电短时回归预测框架设计[J].现代电力,2022,39(3):253-261.
3马素倩.高中语文大单元视域下的深度学习——以统编版必修教材“文学阅读与写作”单元为例[J].语文教学之友,2022,41(6):42-44. 被引量：1
4彭君亚,韦文华.深度学习视野下小学寓言学习教学设计——兼谈部编版三年级下册第二单元教学实践与思考[J].牡丹江教育学院学报,2022(3):111-114. 被引量：3
5谭庆,李辉,吴昊霖,王壮,邓书超.基于奖励预测误差的内在好奇心方法[J].计算机应用,2022,42(6):1822-1828. 被引量：2
6窦梓荧,戴敏.基于短时心电信号的身份识别方法[J].天津理工大学学报,2022,38(1):49-52.
7ZHAO Wencang,LI Ming,QIN Wenqian.Task-adaptation graph network for few-shot learning[J].High Technology Letters,2022,28(2):164-171.
8Peng-Fei Sun,Ya-Wen Ouyang,Ding-Jie Song,Xin-Yu Dai.Self-Supervised Task Augmentation for Few-Shot Intent Detection[J].Journal of Computer Science & Technology,2022,37(3):527-538. 被引量：1
9张博俊,陈天宁,李魏然,赵宇.空中管制作业仿真的认知负荷评估实验[J].人类工效学,2022,28(2):77-81.
10刘家成,张向文.基于TD3的电动汽车复合电源能量管理策略研究[J].智能科学与技术学报,2022,4(2):277-287. 被引量：1

湖南大学学报（自然科学版）

2022年第6期

浏览历史

内容加载中请稍等...

基于元强化学习的无人机自主避障与目标追踪被引量：4

参考文献3

二级参考文献14

共引文献53

同被引文献73

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于元强化学习的无人机自主避障与目标追踪 被引量：4

参考文献3

二级参考文献14

共引文献53

同被引文献73

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于元强化学习的无人机自主避障与目标追踪被引量：4