为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新...为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。展开更多
传统的拓扑优化算法均基于灵敏度分析的方式求解,如渐进结构优化法(Evolutionary Structural Optimization, ESO)和变密度法(Solid Isotropic Material with Penalization, SIMP)等,灵敏度分析依赖于严谨的数学模型,结果可信度高,但面...传统的拓扑优化算法均基于灵敏度分析的方式求解,如渐进结构优化法(Evolutionary Structural Optimization, ESO)和变密度法(Solid Isotropic Material with Penalization, SIMP)等,灵敏度分析依赖于严谨的数学模型,结果可信度高,但面对不同的结构和约束条件都需要反复重新推导单元灵敏度,对使用人员的数学能力有较高要求,而且也导致了收敛速度慢、迭代步数多的问题。针对现有优化方法中存在的缺陷,结合强化学习Q学习理论和元胞自动机原理,提出一种新的拓扑优化方法:Q学习-元胞法(Q-learning-Cellular Automaton, QCA),尝试为工程构件的优化设计提供一种新思路。这种方法以有限元单元作为元胞,将所有元胞的智能行为集成为一个Q-learning智能体。训练过程中,各个元胞首先完成对自身环境的感知,然后调用智能体进行决策并通过环境交互得到反馈,智能体也借此得到大量数据来学习更新,整个过程不涉及数学模型推导,通过智能体和元胞的不断探索即可完成优化。在此基础上,探讨元胞的选择及其邻域和状态的描述方式,针对元胞的动作空间及收益函数进行比选,进而编制相关拓扑优化软件。优化算例表明,QCA方法优化后的拓扑构型与传统优化方法的构型基本一致,迭代步数较SIMP法降低了64%,且柔顺度更低。Q学习-元胞法在结构拓扑优化中具备良好的可行性,计算效率高且具有迁移优化能力,在结构拓扑优化领域极具潜力。展开更多
针对5G新空口-车联网(New Radio-Vehicle to Everything,NR-V2X)场景下车对基础设施(Vehicle to Infrastructure,V2I)和车对车(Vehicle to Vehicle,V2V)共享上行通信链路的频谱资源分配问题,提出了一种联邦-多智能体深度Q网络(Federated...针对5G新空口-车联网(New Radio-Vehicle to Everything,NR-V2X)场景下车对基础设施(Vehicle to Infrastructure,V2I)和车对车(Vehicle to Vehicle,V2V)共享上行通信链路的频谱资源分配问题,提出了一种联邦-多智能体深度Q网络(Federated Learning-Multi-Agent Deep Q Network,FL-MADQN)算法.该分布式算法中,每个车辆用户作为一个智能体,根据获取的本地信道状态信息,以网络信道容量最佳为目标函数,采用DQN算法训练学习本地网络模型.采用联邦学习加快以及稳定各智能体网络模型训练的收敛速度,即将各智能体的本地模型上传至基站进行聚合形成全局模型,再将全局模型下发至各智能体更新本地模型.仿真结果表明:与传统分布式多智能体DQN算法相比,所提出的方案具有更快的模型收敛速度,并且当车辆用户数增大时仍然保证V2V链路的通信效率以及V2I链路的信道容量.展开更多
文摘为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。
文摘针对5G新空口-车联网(New Radio-Vehicle to Everything,NR-V2X)场景下车对基础设施(Vehicle to Infrastructure,V2I)和车对车(Vehicle to Vehicle,V2V)共享上行通信链路的频谱资源分配问题,提出了一种联邦-多智能体深度Q网络(Federated Learning-Multi-Agent Deep Q Network,FL-MADQN)算法.该分布式算法中,每个车辆用户作为一个智能体,根据获取的本地信道状态信息,以网络信道容量最佳为目标函数,采用DQN算法训练学习本地网络模型.采用联邦学习加快以及稳定各智能体网络模型训练的收敛速度,即将各智能体的本地模型上传至基站进行聚合形成全局模型,再将全局模型下发至各智能体更新本地模型.仿真结果表明:与传统分布式多智能体DQN算法相比,所提出的方案具有更快的模型收敛速度,并且当车辆用户数增大时仍然保证V2V链路的通信效率以及V2I链路的信道容量.