航空器智能引导机动决策奖励重塑方法被引量：1

Reward Shaping for Intelligent Maneuver Decision Generation in Aircraft Guidance

下载PDF

导出

摘要针对使用深度强化学习进行航空器智能引导研究中存在的飞行轨迹质量差、训练效率低等问题,对应用于机动决策生成的奖励重塑方法进行了研究。首先,构建了航空器引导机动决策生成的深度强化学习模型;其次,从指令连续性和相对姿态两个角度设计了奖励重塑函数,并证明了使用重塑函数前后的策略一致性;最后,在不同类型目的地场景中进行了仿真实验。仿真结果表明:奖励重塑方法对航空器飞行轨迹质量和智能体训练效率有明显的提升。使用本方法快速训练的智能体,可以准确、高效地生成机动决策,引导航空器完成任务。 A reward shaping approach applied to maneuver decision generation was proposed to solve the poor trajectory performance and low training efficiency problems in aircraft intelligent guidance using deep reinforcement learning.Firstly,a deep reinforcement learning model for aircraft guidance maneuver decision generation was built.Secondly,the reward shaping function was designed from the two aspects of instruction continuity and relative position,and the policy consistency using reward shaping was proved.Finally,simulations were carried out in different kinds of destination scenarios.Simulation results show that flight trajectory performance and agent training efficiency are significantly improved by using reward remodeling.The agent trained by the proposed method can generate maneuver decision accurately and efficiently and guide the aircraft to complete the guidance task.

作者王壮艾毅文旭光李辉 WANG Zhuang;AI Yi;WEN Xu-guang;LI Hui(College of Air Traffic Management,Civil Aviation Flight University of China,Guanghan 618307,China;Guangxi Key Laboratory of International Join for China-ASEAN Comprehensive Transportation,Nanning University,Nanning 530000,China;College of Computer Science,Sichuan University,Chengdu 610065,China)

机构地区中国民用航空飞行学院空中交通管理学院南宁学院广西中国-东盟综合交通国际联合重点实验室四川大学计算机学院

出处《科学技术与工程》北大核心 2023年第8期3535-3543,共9页 Science Technology and Engineering

基金四川省科技计划(2021JDRC0083) 中央高校基本科研业务费基金(J2022-051) 广西中国-东盟综合交通国际联合重点实验室资助课题(21-220-21-01)。

关键词航空器引导机动决策深度强化学习奖励重塑 aircraft guidance maneuver decision deep reinforcement learning reward shaping

分类号 V249.1 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献11

1王健,张涛,李亮.无人机空中加油自主会合的制导与控制[J].飞行力学,2017,35(2):39-43. 被引量：1
2李夏,张飞桥,严皓,马昕.多维度动态融合建模下4D飞行路径优化[J].科学技术与工程,2022,22(23):10325-10333. 被引量：2
3张永梅,赵家瑞,吴爱燕.好奇心驱动的深度强化学习机器人路径规划算法[J].科学技术与工程,2022,22(25):11075-11083. 被引量：7
4王宝仁,韩婷婷,王凯.基于增强拓扑神经演化强化学习的水面无人艇局部路径规划[J].科学技术与工程,2020,20(15):6107-6112. 被引量：7
5李楠,强懿耕,焦庆宇,李佳翌,高峥.一种基于反向神经网络的航空器飞行轨迹预测[J].科学技术与工程,2019,19(21):330-335. 被引量：17
6Dong SUI,Weiping XU,Kai ZHANG.Study on the resolution of multi-aircraft flight conflicts based on an IDQN[J].Chinese Journal of Aeronautics,2022,35(2):195-213. 被引量：8
7何金,丁勇,高振龙.基于Double Deep Q Network的无人机隐蔽接敌策略[J].电光与控制,2020,27(7):52-57. 被引量：9
8马文,李辉,王壮,黄志勇,吴昭欣,陈希亮.基于深度随机博弈的近距空战机动决策[J].系统工程与电子技术,2021,43(2):443-451. 被引量：21
9周攀,黄江涛,章胜,刘刚,舒博文,唐骥罡.基于深度强化学习的智能空战决策与仿真[J].航空学报,2023,44(4):94-107. 被引量：13
10张堃,李珂,时昊天,张振冲,刘泽坤.基于深度强化学习的UAV航路自主引导机动控制决策算法[J].系统工程与电子技术,2020,42(7):1567-1574. 被引量：13

二级参考文献84

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
2侯玉燕.国外空中加油技术的发展和展望[J].飞行力学,1994,12(4):14-22. 被引量：20
3钟友武,柳嘉润,杨凌宇,申功璋.自主近距空战中机动动作库及其综合控制系统[J].航空学报,2008,29(B05):114-121. 被引量：23
4王超,郭九霞,沈志鹏.基于基本飞行模型的4D航迹预测方法[J].西南交通大学学报,2009,44(2):295-300. 被引量：79
5李朝旭,郭军,李雪松.带有碰撞角约束的三维纯比例导引律研究[J].电光与控制,2009,16(5):9-12. 被引量：11
6楚焱芳,张瑞华.模糊控制理论综述[J].科技信息,2009(20):161-162. 被引量：16
7徐安,于雷,寇英信,徐保伟,李战武.基于MDP框架的飞行器隐蔽接敌策略[J].系统工程与电子技术,2011,33(5):1063-1068. 被引量：11
8樊会涛.第五代空空导弹的特点及关键技术[J].航空科学技术,2011(3):1-5. 被引量：40
9徐安,寇英信,于雷,李战武.基于RBF神经网络的Q学习飞行器隐蔽接敌策略[J].系统工程与电子技术,2012,34(1):97-101. 被引量：8
10韩云祥,汤新民,韩松臣.固定航路最优飞行冲突解脱模型[J].交通运输工程学报,2012,12(1):115-120. 被引量：10

共引文献85

1谢廷尧,姜伟,吕宇宙,叶舟.神经网络在航迹检测中的应用[J].无线电工程,2020,50(1):10-14. 被引量：2
2康瑞,杨凯.航空器跟随滑行动态冲突风险计算模型[J].科学技术与工程,2020,20(18):7336-7341. 被引量：1
3黄正斌,孟来登,韩宇.基于强化学习的循迹小车实现[J].仪表技术,2020(7):15-17. 被引量：2
4马文,李辉,王壮,黄志勇,吴昭欣,陈希亮.基于深度随机博弈的近距空战机动决策[J].系统工程与电子技术,2021,43(2):443-451. 被引量：21
5王兴,宋琦.物联网环境下的指挥车智能防火系统[J].科学技术与工程,2020,20(36):15008-15014. 被引量：1
6王建鑫,江晶.基于远海突击任务的空中编队组建流程研究[J].科技资讯,2021,19(4):206-210.
7陈希亮,李清伟,孙彧.基于博弈对抗的空战智能决策关键技术[J].指挥信息系统与技术,2021,12(2):1-6. 被引量：11
8高昂,董志明,李亮,段莉,郭齐胜.面向LVC训练的蓝方虚拟实体近距空战决策建模[J].系统工程与电子技术,2021,43(6):1606-1617. 被引量：4
9郑甲宏,赵敬超.一种基于PCA-BP的直升机起落架着舰载荷评估方法[J].中国测试,2021,47(5):156-161. 被引量：4
10何准,董文瀚,蔡鸣,李大东.基于DDPG的多旋翼无人机自主引导与跟踪方法[J].飞行力学,2021,39(2):63-69. 被引量：5

同被引文献2

1周亮,王震,王冠.远程过程调用技术在分布式软件系统中的应用[J].航空电子技术,2020,51(4):47-52. 被引量：7
2邹启杰,蒋亚军,高兵,李文雪,张汝波.协作多智能体深度强化学习研究综述[J].航空兵器,2022,29(6):78-88. 被引量：7

引证文献1

1成城,陈智杰,郭子铭,李妮.多智能体协同决策仿真平台研究与开发[J].系统仿真学报,2023,35(12):2669-2679.

1刘庆利,乔晨昊,杨国强,张振亚.基于强化麻雀搜索神经网络的空战机动决策方法[J].火力与指挥控制,2023,48(1):84-91.
2赵长林,刘艳.整合本地和云安全策略提升混合网络安全性[J].网络安全和信息化,2022(12):97-99.
3谢秋霞,王郑芳,张晗,曹静,任焱斐.全智能导检系统在降低健康体检弃检率中的应用[J].中国现代医药杂志,2023,25(2):95-97. 被引量：1
4樊夏敏.铁路车站专用车辆智能引导系统[J].物联网技术,2023,13(3):132-136. 被引量：2
5方蕾,薛冬梅.突发公共事件中新媒体时代网络舆情分析在学生思政教育中的引导研究[J].知识窗（教师版）,2023(3):18-20.
6周清源.“网红现象”对大学生价值观塑形的影响及引导研究[J].江西电力职业技术学院学报,2023,36(1):160-162.
7安万琴.企业基于管理者决策生成的财务分析研究[J].中国市场,2023(11):163-166.
8周思羽,石瑜,杨文奇,王子健,高丽,高艳丽.基于Nanson群决策算法的多机协同空战机动决策[J].兵器装备工程学报,2022,43(S02):191-198.
9黄旭东,常奇,王华鲜.港口智能引导车的多激光雷达外参标定算法[J].港口科技,2022(11):6-10.
10李永丰,吕永玺,史静平,李卫华.深度确定性策略梯度和预测相结合的无人机空战决策研究[J].西北工业大学学报,2023,41(1):56-64. 被引量：2

科学技术与工程

2023年第8期

浏览历史

内容加载中请稍等...

航空器智能引导机动决策奖励重塑方法被引量：1

参考文献11

二级参考文献84

共引文献85

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

航空器智能引导机动决策奖励重塑方法 被引量：1

参考文献11

二级参考文献84

共引文献85

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

航空器智能引导机动决策奖励重塑方法被引量：1