改进的动态A*-Q-Learning算法及其在无人机航迹规划中的应用被引量：1

Improved Dynamic A*-Q-Learning Algorithm and Its Application in UAV Route Planning

下载PDF

导出

摘要 Q-Learning算法是一种基于价值函数的强化学习方法。传统的Q-Learning算法迭代效率低且容易陷入局部收敛,针对该劣势改进了算法,引入A*算法和动态搜索因子ε。将改进后的动态A*-Q-Learning算法应用于三维复杂环境下无人机的航迹规划,分析无人机航迹规划结果的回报函数、探索步数和运行效率。结果表明,改进后的算法可使无人机在复杂环境下具有很强的自适应性;同时,动态搜索因子ε能有效地避免智能体在搜寻过程中陷入局部最优的状况,在复杂地形中能寻找到更优的路径。 The Q-Learning algorithm is a reinforcement learning method based on value functions.The traditional Q-Learning algorithm lacks efficiency in iteration and is easy to fall into local convergence.To solve the disadvantage,the algorithm is improved:introducing A* algorithm and dynamic search factorε.The improved dynamic A*-Q-Learning algorithm is applied to the route planning of UAV in 3D complex environment,and the return function,exploration steps and operation efficiency of UAV route planning results are analyzed.The results demonstrate that the improved algorithm can enable UAV to have strong adaptability in the face of complex environment;meanwhile,dynamic search factorsεcan effectively avoid the agent falling into the local optimal condition in the search process,and find a better path in complex terrain.

作者程传斌倪艾辰房翔宇张亮 CHENG Chuanbin;NI Aichen;FANG Xiangyu;ZHANG Liang(School of Science,Wuhan University of Technology,Wuhan 430070,China;School of Economics,Wuhan University of Technology,Wuhan 430070,China)

机构地区武汉理工大学理学院武汉理工大学经济学院

出处《现代信息科技》 2021年第9期1-5,9,共6页 Modern Information Technology

基金国家自然科学基金(61573012)。

关键词无人机航迹规划 A*改进动态搜索因子ε 动态A*-Q-Learning UAV route planning A* improvement dynamic search factorε dynamic A*-Q-Learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] V279 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献14

1秦智慧,李宁,刘晓彤,刘秀磊,佟强,刘旭红.无模型强化学习研究综述[J].计算机科学,2021,48(3):180-187. 被引量：28
2张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
3高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：266
4朱志斌,王付永,尹艳辉,刘忠信,陈增强.基于Q-learning的离散时间多智能体系统一致性[J].控制理论与应用,2021,38(7):997-1005. 被引量：7
5蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
6张栋,李如飞,闫晓东,郝峰,赵志权.基于智能优化算法的集群协同航迹规划方法研究[J].战术导弹技术,2020(6):17-29. 被引量：2
7阎昊,樊兴,夏学知.图结构与Dijkstra算法在无人机航迹规划中的应用[J].火力与指挥控制,2010,35(4):155-157. 被引量：8
8陈诚,林秋婷,邱荣祖.基于随机规划模型的弹性木材供应链网络优化[J].森林与环境学报,2021,41(1):88-95. 被引量：2
9郑书朋,郑淑涛,朱思滨,韩俊伟.基于启发搜索策略的飞行仿真系统实时调度算法[J].沈阳工业大学学报,2011,33(1):86-92. 被引量：1
10张志文,张鹏,毛虎平,李晓杰,程必良.改进A^(*)算法的机器人路径规划研究[J].电光与控制,2021,28(4):21-25. 被引量：46

二级参考文献91

1胡晓磊,胡朝晖,江洋溢.基于Dijkstra算法的水平航迹规划[J].火力与指挥控制,2004,29(4):86-88. 被引量：24
2李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
3朱庆保,张玉兰.基于栅格法的机器人路径规划蚁群算法[J].机器人,2005,27(2):132-136. 被引量：123
4杨璐,洪家荣,黄梯云.用加强学习方法解决基于神经网络的时序实时建模问题[J].哈尔滨工业大学学报,1996,28(4):136-139. 被引量：2
5阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
6陈钦,刘伟平.福建省人工用材林收益与风险分析[J].林业科学,2006,42(2):93-97. 被引量：7
7许占文,李歆.Linux2·6内核的实时调度的研究与改进[J].沈阳工业大学学报,2006,28(4):438-441. 被引量：10
8Timothy W M,Randal W B.Trajectory Planning for Coordinated Rendevous of Unmanned AirVehicles[R].AIAA 2000243392CP,2000.
9Bortoff S A.Path-Planning for Unmanned Air Vehicles[C]//Proceedings of the American Control Conference,2000.
10Liu J S. Real-time systems [ M ]. New Jersey:Prentice Hall, 2000.

共引文献508

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3王昊,林远山,李然,于红,王芳.面向养殖网箱巡检任务的强化学习训练系统[J].计算机与数字工程,2023,51(1):103-111.
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6李徐,张帆.受强化学习思想启发的一种结构优化算法[J].智能计算机与应用,2022,12(5):136-140. 被引量：1
7马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
8赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
9孙方平,符秀辉.复杂环境下机器人的行为学习研究[J].仪器仪表学报,2006,27(z3):1982-1983. 被引量：2
10朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.

同被引文献19

1张艳玲,刘爱志,孙长银.间接互惠与合作演化的若干问题研究进展[J].自动化学报,2018,44(1):1-12. 被引量：13
2郭本海,王涵.多方博弈情景下我国自主品牌轿车价值重构问题研究[J].中国管理科学,2018,26(10):140-151. 被引量：19
3谢榕,顾村锋.一种欧椋鸟群协同算法[J].武汉大学学报（理学版）,2019,65(3):229-237. 被引量：3
4王先甲,顾翠伶,赵金华,全吉.随机演化动态及其合作机制研究综述[J].系统科学与数学,2019,39(10):1533-1552. 被引量：11
5全吉,储育青,王先甲.自愿参与机制下的公共物品博弈与合作演化[J].系统工程学报,2020,35(2):188-200. 被引量：9
6王超,郭基联,符凌云.基于拓扑势的作战体系网络节点重要度评估方法[J].兵工学报,2020,41(8):1658-1664. 被引量：14
7轩书哲,柯良军.基于多智能体强化学习的无人机集群攻防对抗策略研究[J].无线电工程,2021,51(5):360-366. 被引量：12
8禹明刚,何明,张东戈,马子玉,康凯.基于多元公共品演化博弈的无人作战集群策略占优条件[J].系统工程与电子技术,2021,43(9):2553-2561. 被引量：4
9Jun Tang,Gang Liu,Qingtao Pan.A Review on Representative Swarm Intelligence Algorithms for Solving Optimization Problems:Applications and Trends[J].IEEE/CAA Journal of Automatica Sinica,2021,8(10):1627-1643. 被引量：36
10王刚,王志屹,张恩宁,马润年,陈彤睿.多阶段平台动态防御的Markov演化博弈模型及迁移策略[J].兵工学报,2021,42(8):1690-1697. 被引量：3

引证文献1

1毕文豪,王炤晰,吴伟,张安.基于公共品博弈的无人机集群自主协同机制[J].兵工学报,2023,44(11):3407-3421. 被引量：2

二级引证文献2

1农达勇.基于无人机集群的森林防火监测技术研究[J].农村科学实验,2023(24):109-111.
2贺云涛,樊天仰,徐军,王正平,李文光.无人机飞行控制原型实验设计与实践[J].实验室研究与探索,2024,43(7):59-63.

1王梦璐,李连忠.动态反向搜索更新位置的改进灰狼优化算法[J].计算机工程与应用,2021,57(18):86-96. 被引量：4
2马力,张建国,张雷铭,涂宇航,武璟,廉开元.基于IPSO-ELM模型的露天矿抛掷爆破效果预测研究[J].煤炭科学技术,2021,49(9):69-75. 被引量：5
3刘杨,赵正萍,张敏,颜学武.花绒寄甲寄主搜寻行为研究进展[J].山东林业科技,2021,51(3):94-97.
4张肖,王文韬,李晶,谢阳群,刘咏梅.老年人在线健康信息替代搜寻:内容分析与研究展望[J].情报资料工作,2021,42(5):84-93. 被引量：16
5谢童伟,余文韬.教育发展能否使省际人口城镇化趋向均衡——基于省际面板数据条件收敛模型的实证分析[J].宏观经济研究,2021(8):107-114. 被引量：2

现代信息科技

2021年第9期

浏览历史

内容加载中请稍等...

改进的动态A*-Q-Learning算法及其在无人机航迹规划中的应用被引量：1

参考文献14

二级参考文献91

共引文献508

同被引文献19

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

改进的动态A*-Q-Learning算法及其在无人机航迹规划中的应用 被引量：1

参考文献14

二级参考文献91

共引文献508

同被引文献19

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

改进的动态A*-Q-Learning算法及其在无人机航迹规划中的应用被引量：1