基于生成对抗近端策略优化的机动策略优化算法

GA-PPO Based Maneuvering Policy Optimization Algorithm

下载PDF

导出

摘要针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于JSBSim开源平台的F-16飞机空气动力学模型。仿真结果表明,本文算法收敛效率高于PPO算法,生成的策略模型具备较好的智能性。 To address the issues that the traditional reinforcement learning algorithm has low convergence efficiency and in⁃sufficient use of expert data in air combat maneuver decisions,an algorithm based on generative adversarial technique is designed.The algorithm adopts the Discriminator-Actor-Critic(DAC)framework.Based on Proximal Policy Optimization(PPO)algorithm,the discriminator is trained with expert data and environmental interactive data,while training the policy network to achieve the the optimization of constrained policy towards the expert policy,which improves the convergence of the algorithm and the utilization efficiency of expert experience.The simulation environment is based on the F-16 aircraft aerodynamic model on the JSBSim open source platform.The simulation results show that the convergence efficiency of this algorithm is higher than that of the PPO algorithm,and the generated policy model has good intelligence.

作者付宇鹏邓向阳朱子强高阳张立民 FU Yupeng;DENG Xiangyang;ZHU Ziqiang;GAO Yang;ZHANG Limin(Naval Aviation University,Yantai Shandong 264001,China;Tsinghua university,Beijing 1000084,China)

机构地区海军航空大学清华大学

出处《海军航空大学学报》 2023年第3期257-261,300,共6页 Journal of Naval Aviation University

基金国防高层次人才基金项目(202220539、202220540) 山东省高等学校“青创团队计划”(2022KJ084)。

关键词生成对抗模仿学习近端策略优化机动决策强化学习模仿学习 Generative Adversarial Imitation Learning(GAIL) Proximal Policy Optimization(PPO) manuevering decision reinforcement learning imitation learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1付宇鹏,邓向阳,朱子强,方君,余应福,闫文君,张立民.基于模仿强化学习的固定翼飞机姿态控制器[J].海军航空大学学报,2022,37(5):393-399. 被引量：3

二级参考文献5

1关巍,许维胜.飞机纵向控制中的法向过载设计[J].辽宁大学学报（自然科学版）,2005,32(1):54-58. 被引量：1
2王嘉,高正红.飞机航路飞行的自动飞行仿真[J].飞行力学,2008,26(1):75-78. 被引量：8
3舒怀林.PID神经元网络对强耦合带时延多变量系统的解耦控制[J].控制理论与应用,1998,15(6):920-924. 被引量：56
4杨方伟,王小青.基于法向过载增稳的无人机纵向姿态控制技术研究[J].中国民航飞行学院学报,2017,28(6):60-62. 被引量：1
5于德海,曲东才,李飞,祁亚辉.飞机纵向增稳系统结构方案及控制规律设计[J].兵器装备工程学报,2018,39(4):26-29. 被引量：1

共引文献2

1王伟,吴昊,刘鸿勋,杨溢.基于深度强化学习的无人机姿态控制器设计[J].科学技术与工程,2023,23(34):14888-14895.
2赵长啸,李道俊,孙亦轩,景鹏,田毅.基于深度强化学习的综合航电系统安全性优化方法[J].中国安全科学学报,2024,34(7):123-131.

1朱介北,徐思旸,李炳森,王云逸,王杨,俞露杰,熊雪君,王成山.基于电网专家策略模仿学习的新型电力系统实时调度[J].电网技术,2023,47(2):517-528. 被引量：9
2吴冯国,陶伟,李辉,张建伟,郑成辰.基于深度强化学习算法的无人机智能规避决策[J].系统工程与电子技术,2023,45(6):1702-1711.
3李丛卉,梁海朝,王剑颖.考虑射程损失的高超声速飞行器突防弹道分析与设计方法[J].飞控与探测,2022,5(6):69-79. 被引量：2
4刘健,王小菲.基于层次分析法的高校图书馆网站用户满意度评价指标体系构建研究[J].情报科学,2022,40(12):80-87. 被引量：20
5贾雨薇,邵忻.基于多蚁群系统的多无人机反侦察航迹规划[J].舰船电子对抗,2023,46(3):14-19. 被引量：1
6毛维杨,王彬,柳景兴,熊新.基于强化学习的深空探测器自主任务规划方法[J].深空探测学报（中英文）,2023,10(2):220-230. 被引量：2
7连菲,李慧.认知友好社区空间环境的国际研究进展——认知障碍人群自立生活视角下的综述与思考[J].世界建筑,2023(6):66-71. 被引量：1
8王跃东,顾以静,梁彦,王增福,张会霞.伴随压制干扰与组网雷达功率分配的深度博弈研究[J].雷达学报（中英文）,2023,12(3):642-656. 被引量：4
9张超,白文松,杜歆,柳伟杰,周晨浩,钱徽.模仿学习综述:传统与新进展[J].中国图象图形学报,2023,28(6):1585-1607.
10郝少璞,刘全,徐平安,张立华,黄志刚.基于余弦相似度的多模态模仿学习方法[J].计算机研究与发展,2023,60(6):1358-1372. 被引量：7

海军航空大学学报

2023年第3期

浏览历史

内容加载中请稍等...

基于生成对抗近端策略优化的机动策略优化算法

参考文献1

二级参考文献5

共引文献2

相关作者

相关机构

相关主题

浏览历史