为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新...为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。展开更多
传统的拓扑优化算法均基于灵敏度分析的方式求解,如渐进结构优化法(Evolutionary Structural Optimization, ESO)和变密度法(Solid Isotropic Material with Penalization, SIMP)等,灵敏度分析依赖于严谨的数学模型,结果可信度高,但面...传统的拓扑优化算法均基于灵敏度分析的方式求解,如渐进结构优化法(Evolutionary Structural Optimization, ESO)和变密度法(Solid Isotropic Material with Penalization, SIMP)等,灵敏度分析依赖于严谨的数学模型,结果可信度高,但面对不同的结构和约束条件都需要反复重新推导单元灵敏度,对使用人员的数学能力有较高要求,而且也导致了收敛速度慢、迭代步数多的问题。针对现有优化方法中存在的缺陷,结合强化学习Q学习理论和元胞自动机原理,提出一种新的拓扑优化方法:Q学习-元胞法(Q-learning-Cellular Automaton, QCA),尝试为工程构件的优化设计提供一种新思路。这种方法以有限元单元作为元胞,将所有元胞的智能行为集成为一个Q-learning智能体。训练过程中,各个元胞首先完成对自身环境的感知,然后调用智能体进行决策并通过环境交互得到反馈,智能体也借此得到大量数据来学习更新,整个过程不涉及数学模型推导,通过智能体和元胞的不断探索即可完成优化。在此基础上,探讨元胞的选择及其邻域和状态的描述方式,针对元胞的动作空间及收益函数进行比选,进而编制相关拓扑优化软件。优化算例表明,QCA方法优化后的拓扑构型与传统优化方法的构型基本一致,迭代步数较SIMP法降低了64%,且柔顺度更低。Q学习-元胞法在结构拓扑优化中具备良好的可行性,计算效率高且具有迁移优化能力,在结构拓扑优化领域极具潜力。展开更多
文摘为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。