基于深度强化学习的无人机栖落机动控制策略设计

Design of UAV Perching Maneuver Control Strategy Based on Deep Reinforcement Learning

下载PDF

导出

摘要无人机栖落机动飞行是一种无需跑道的降落方法,能够提升无人机在复杂环境下执行任务的适应能力。针对具有高非线性、多约束特性的无人机栖落机动过程,提出了一种基于模仿深度强化学习的控制策略设计方法。首先,建立了固定翼无人机栖落机动的纵向非线性动力学模型,并设计了无人机栖落机动的强化学习环境。其次,针对栖落机动状态动作空间大的特点,为了提高探索效率,通过模仿专家经验的方法对系统进行预训练。然后,以模仿学习得到的权重为基础,采用近端策略优化方法学习构建无人机栖落机动的神经网络控制器。最后,通过仿真验证了上述控制策略设计方法的有效性。 UAV perching maneuvering is a landing method that does not require a runway, which can improve the adaptability of UAV to perform tasks in complex environments. Aiming at the UAV perching maneuver process with high nonlinearity and multi-constraint characteristics, a control strategy design method based on imitating deep reinforcement learning is proposed. Firstly, a longitudinal nonlinear dynamic model of fixed-wing UAV perching maneuver is established, and a reinforcement learning environment for UAV perching maneuver is designed. Secondly, in view of the large action and state space of the perching maneuver, to improve the exploration efficiency, the system is pre-trained by imitating the experience of experts. Then, based on the weights obtained by imitation learning, the proximal policy optimization method is used to learn to build a neural network controller for UAV perching maneuver. Finally, simulations verify the effectiveness of the control strategy design method.

作者黄赞何真仇靖雯 HUANG Zan;HE Zhen;QIU Jing-wen(College of Automation Engineering,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)

机构地区南京航空航天大学自动化学院

出处《导航定位与授时》 CSCD 2022年第6期25-32,共8页 Navigation Positioning and Timing

基金国家自然科学基金(61873126)。

关键词栖落机动深度强化学习固定翼无人机神经网络 Perching maneuver Deep reinforcement learning Fixed-wing UAV Neural network

分类号 V249 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献3

1袁亮,何真,王月.变体无人机栖落机动建模与轨迹优化[J].南京航空航天大学学报,2018,50(2):266-275. 被引量：7
2王无天,何真,岳珵.飞行器栖落机动的轨迹跟踪控制及吸引域优化计算[J].北京航空航天大学学报,2021,47(2):414-423. 被引量：3
3万慧雯,何真,曹瑞,胡舟逸.无人机栖落机动的一种离线鲁棒预测控制算法[J].南京航空航天大学学报,2019,51(6):785-794. 被引量：2

二级参考文献7

1隋吉超,罗飞.基于平方和规划法的一种估计系统吸引域的改进算法[J].科学技术与工程,2012,20(5):978-981. 被引量：3
2耿晓军,席裕庚.不确定系统的滚动时域H^∞控制设计[J].控制与决策,2000,15(2):149-152. 被引量：9
3穆凌霞,李平,李乐尧,王新民,谢蓉.RLV末端能量管理段的在线轨迹规划算法[J].系统工程与电子技术,2017,39(3):591-598. 被引量：9
4李达,何真,阚莹莹.无人机栖落机动建模与轨迹优化[J].飞行力学,2017,35(4):47-51. 被引量：3
5袁亮,何真,王月.变体无人机栖落机动建模与轨迹优化[J].南京航空航天大学学报,2018,50(2):266-275. 被引量：7
6王月,何真,张建兰,袁亮,陆宇平.飞行器栖落机动切换控制设计及其吸引域计算[J].系统工程与电子技术,2018,40(11):2519-2527. 被引量：1
7章豪,傅鸣毅,龚瑞.基于分布式模型预测控制的多无人机协同规避控制技术[J].南京航空航天大学学报,2017,49(S1):96-102. 被引量：6

共引文献7

1万慧雯,何真,曹瑞,胡舟逸.无人机栖落机动的一种离线鲁棒预测控制算法[J].南京航空航天大学学报,2019,51(6):785-794. 被引量：2
2岳珵,何真,王无天.变体辅助的无人机栖落机动模糊控制设计[J].南京航空航天大学学报,2020,52(6):871-880. 被引量：2
3王无天,何真,岳珵.飞行器栖落机动的轨迹跟踪控制及吸引域优化计算[J].北京航空航天大学学报,2021,47(2):414-423. 被引量：3
4杜昕,黄江涛,章胜.飞行器栖落机动轨迹可达域分析[J].航空工程进展,2021,12(6):79-85.
5Lingling CHU,Qi LI,Feng GU,Xintian DU,Yuqing HE,Yangchen DENG.Design,modeling,and control of morphing aircraft:A review[J].Chinese Journal of Aeronautics,2022,35(5):220-246. 被引量：27
6李传旭,孟秀云,王捷.基于扰动观测器的飞行器轨迹跟踪控制器设计[J].系统工程与电子技术,2022,44(8):2593-2600. 被引量：1
7张良阳,李占科,韩海洋.微型无人机栖息设计技术综述[J].航空学报,2023,44(12):19-44. 被引量：2

1吕海平.探析国企基层党支部党建品牌建设的具体策略[J].乡镇企业导报,2019(9):14-15.
2罗杰.基于核心素养的问题驱动式化学教学策略研究[J].教学管理与教育研究,2022,7(18):9-10.
3张蕾.数学区域活动材料的投放与指导[J].教育,2022(35):84-85.
4陈达,游晓明,刘升.引入特征迁移和匹配学习的双蚁型蚁群算法[J].计算机科学与探索,2022,16(12):2797-2808. 被引量：1
5王岩韬,刘锟,赵嶷飞.雷暴天气下的多航班备降动态优化方案[J].工程科学学报,2023,45(4):654-662. 被引量：3

导航定位与授时

2022年第6期

浏览历史

内容加载中请稍等...

基于深度强化学习的无人机栖落机动控制策略设计

参考文献3

二级参考文献7

共引文献7

相关作者

相关机构

相关主题

浏览历史