基于强化学习的微小型弹药两回路驾驶仪设计被引量：2

Design Two-loop Autopilot Based on Reinforcement Learning for Miniature Munition

导出

摘要利用强化学习及自适应动态规划原理,设计了一种适用于微小型弹药的两回路驾驶仪,并建立了纵向通道控制模型。由于跟踪器问题的最优解不易获得,将系统矩阵与期望输出信号进行增广,构成增广系统并引入折扣因子,将系统的跟踪器设计问题转换为调节器设计问题。基于贝尔曼最优性原理,采用策略迭代的方法对黎卡提方程进行求解,并证明了该算法的收敛性。最后仿真验证了通过策略评估及策略更新两步迭代计算,可以收敛至跟踪器的最优解。 Based on theory of reinforcement learning and adaptive dynamic programming,the two-loop autopilot of miniature munition is designed.Besides,a linear miniature munition control model of longitudinal channel is established.Because it is difficult to get the optimal solution of tracker,the argument system is constructed by putting the system sate matrix and expected signal together,and the tracker problem is transformed into a regulator problem by augmenting the system and introducing a discount factor.Based on the Bellman optimality principle,the iterative is used to solve the Riccati equation,and the convergence of the iterative algorithm is proved.The simulation results show the tracker can converge to optimal solution through the iteration by two steps of strategy evaluation and strategy updating.

作者范军芳张鑫 Fan Junfang;Zhang Xin(Beijing Key Laboratory of High Dynamic Navigation Technology,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学高动态导航技术北京市重点实验室

出处《战术导弹技术》北大核心 2019年第4期48-54,共7页 Tactical Missile Technology

基金北京市科技新星计划(xxjh2015B041) 北京市委组织部青年拔尖人才计划(2015000026833ZK03) 北京市教委青年拔尖人才项目(CIT&TCD201504055) 高动态导航技术北京市重点实验室开放课题(HDN2018002)

关键词微小型弹药两回路自动驾驶仪策略迭代代数黎卡提方程强化学习贝尔曼最优性原理 miniature ammunition two-loop autopilot policy iteration algebraic Riccati equation reinforcement learning Bellman optimality principle

分类号 TJ410.3 [兵器科学与技术—火炮、自动武器与弹药工程]

引文网络
相关文献

参考文献6

1关世义,丛敏,林涛.关于国外微型导弹发展的思考[J].战术导弹技术,2011(6):1-4. 被引量：11
2乔俊飞,王亚清,柴伟.基于迭代ADP算法的污水处理过程最优控制[J].北京工业大学学报,2018,44(2):200-206. 被引量：3
3周觐,雷虎民,李炯,邵雷.基于神经网络的导弹制导控制一体化反演设计[J].航空学报,2015,36(5):1661-1672. 被引量：6
4郭超,梁晓庚,王斐.基于ADP的高超声速飞行器非线性最优控制[J].火力与指挥控制,2014,39(6):77-81. 被引量：3
5李林静,刘永善.基于自适应控制理论的自动驾驶仪设计[J].战术导弹控制技术,2004(3):13-16. 被引量：5
6范军芳,林德福,祁载康,张宏.两回路自动驾驶仪设计与分析[J].系统工程与电子技术,2008,30(12):2447-2450. 被引量：12

二级参考文献51

1关世义,朱坤,宋福志.关于飞航导弹体系的几个问题[J].战术导弹技术,2004(3):1-10. 被引量：17
2关世义.导弹智能化技术初探[J].战术导弹技术,2004(4). 被引量：44
3刘代军.主动控制技术在空空导弹中的应用[J].战术导弹技术,2001(5):43-49. 被引量：4
4查旭,崔平远,常伯浚.攻击固定目标的飞行器制导控制一体化设计[J].宇航学报,2005,26(1):13-18. 被引量：21
5Zarchan P. Tactical and strategic missile guidance[M]. Washington D C: AIAA, 2002.
6Nesline F W, Nesline M D. How autopilot requirements constrain the aerodynamic design of homing missiles[C] //American Control Conference, 1984: 716- 730.
7Reichert R T. Application of H∞ control to missile autopilot design[J]. AIAA, 89 - 3550 - CP.
8Garnell P. Guided weapon control systems[M]. Beijing: Beijing Institute of Technology, 2003.
9Mracek C P, Ridgely D B. Missile longitudinal autopilots: connections between optimal control and classical topologies [J]. AIAA, 2005 - 6381.
10Buschek H. Robust autopilot design for future missile systems [J]. AIAA,1997.

共引文献34

1齐强,卜祥伟,姜宝续,唐骁,钟伟杰.输入受限乘波体飞行器的最优跟踪控制方法[J].南京航空航天大学学报,2021,53(S01):38-44.
2钟汉生.基于模糊PID的自动驾驶仪设计[J].中国新技术新产品,2009(1):2-3.
3崔世海,吴振雨,张晓东,娄术根.导弹自动驾驶仪设计方法综述[J].飞航导弹,2009(9):56-60. 被引量：5
4Junfang Fan,Defu Lin,Zhong Su,Qing Li.Control of static unstable airframes[J].Journal of Systems Engineering and Electronics,2010,21(6):1063-1071. 被引量：2
5何镜,夏群利,孙静,刘大卫,孙旭光.两回路驾驶仪加速度计杠杆效应研究[J].兵工学报,2012,33(8):962-967. 被引量：2
6徐松林,高汝明,姚江涛.国外海基反舰导弹战斗部研究进展[J].战术导弹技术,2012(5):117-122. 被引量：13
7宋怡然,蒋琪,关世义.国外小型多用途导弹发展现状[J].战术导弹技术,2012(6):6-11. 被引量：8
8雷虎民,张大元,肖增博,薛冬营.导弹非零给定点LQR自动驾驶仪设计[J].控制工程,2013,20(1):79-83. 被引量：3
9林鹏,范军芳,苏中.全捷联微小型弹药制导分析与设计[J].北京信息科技大学学报（自然科学版）,2013,28(5):7-11.
10赵金磊,曹军义,马澄斌,周生喜,曹秉刚.空空导弹的系数图鲁棒控制设计[J].西安交通大学学报,2013,47(11):70-75.

同被引文献23

1孙宝彩,祁载康.带状态反馈约束的驾驶仪极点配置设计方法[J].系统仿真学报,2006,18(z2):892-893. 被引量：2
2朱敬举,祁载康,夏群力.三回路驾驶仪的极点配置方法设计[J].弹箭与制导学报,2007,27(4):8-12. 被引量：12
3温求遒,夏群力,祁载康.三回路驾驶仪开环穿越频率约束极点配置设计[J].系统工程与电子技术,2009,31(2):420-423. 被引量：16
4王辉,林德福,祁载康.导弹伪攻角反馈三回路驾驶仪设计分析[J].系统工程与电子技术,2012,34(1):129-135. 被引量：26
5南杨,李中健,叶文伟.基于强化学习的飞行自动驾驶仪设计[J].电子设计工程,2013,21(10):45-47. 被引量：3
6Min Fang,Frans C.A. Groen.Collaborative multi-agent reinforcement learning based on experience propagation[J].Journal of Systems Engineering and Electronics,2013,24(4):683-689. 被引量：5
7华建林,郑鲲鹏.导弹纵向自动驾驶仪线性二次型控制器设计[J].四川兵工学报,2014,35(6):19-21. 被引量：2
8赵艳辉,闫亮,张公平.基于切换增益变结构控制的导弹自动驾驶仪设计[J].弹箭与制导学报,2016,36(5):1-4. 被引量：4
9任高峰,胥彪,张金鹏.基于自适应动态面及控制分配的敏捷导弹自动驾驶仪设计[J].航空兵器,2017,24(4):33-39. 被引量：3
10臧月进,陈欣,张民.基于μ综合的空-空导弹驾驶仪增益调度方法研究[J].兵器装备工程学报,2017,38(10):133-136. 被引量：2

引证文献2

1陈喆,吕瑞,杜肖,葛云鹏.基于模糊逻辑的导弹PID/滑模复合控制器设计[J].兵器装备工程学报,2022,43(4):237-242. 被引量：1
2万齐天,卢宝刚,赵雅心,温求遒.基于深度强化学习的驾驶仪参数快速整定方法[J].系统工程与电子技术,2022,44(10):3190-3199.

二级引证文献1

1高卫平,何润昌,吐尔逊·买买提,江峰.收费站称重系统轮轴识别仪智能加热系统设计及应用[J].西部交通科技,2023(5):160-163.

1张欣,薄迎春,崔黎黎.离散非线性零和博弈的事件驱动最优控制方案[J].控制理论与应用,2018,35(5):619-626. 被引量：2
2段丽梅,潘灿辉,张琼华.基于三级轴辐式的快递网络设计问题[J].昆明冶金高等专科学校学报,2019,35(1):87-93. 被引量：2
3王辉,李克勇,董瑞星,廖欣.旋转导弹广义马格努斯动力学建模[J].上海航天,2017,34(S1):16-23.
4王帅为,马清华,郑建强,杨姝君,程鹏飞,梁益铭.基于参数空间的伪攻角姿态驾驶仪设计[J].弹箭与制导学报,2018,38(2):88-92.
5刘流,梁晓龙,张佳强,何吕龙,侯岳奇.切换通信拓扑条件下的无人机集群构型变换控制[J].兵工学报,2019,40(5):996-1002. 被引量：9
6侯博,宋建梅,张春妍,黄岚.基于L1自适应的过载驾驶仪设计与全弹道仿真[J].系统工程理论与实践,2018,38(4):1061-1068.
7柯晨旭,颜波.战略消费者行为下普通网购和网络团购模式[J].系统管理学报,2019,28(4):777-782. 被引量：3
8马丽明.缺乏“工匠精神”,已成为我国HIT业发展的制约因素[J].科技新时代,2017,0(6):33-34.
9贾永超,何小卫,郑忠龙.融合重检测机制的卷积回归网络目标跟踪算法[J].计算机应用,2019,39(8):2247-2251. 被引量：9

战术导弹技术

2019年第4期

浏览历史

内容加载中请稍等...

基于强化学习的微小型弹药两回路驾驶仪设计被引量：2

参考文献6

二级参考文献51

共引文献34

同被引文献23

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的微小型弹药两回路驾驶仪设计 被引量：2

参考文献6

二级参考文献51

共引文献34

同被引文献23

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的微小型弹药两回路驾驶仪设计被引量：2