为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新...为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。展开更多
文摘为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。
基金supported by the foun⁃dation of National Key Laboratory of Science and Technolo⁃gy on Aerodynamic Design and Research(No.614220121020114)the Key R&D Projects of Hunan Province(Nos.2021GK2011,2023GK2022)。