为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新...为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。展开更多
强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampli...强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampling based Q-learning,ASQ)算法。该算法采用集中训练-分散执行的框架,在集中训练阶段更新联合动作Q值时并没有遍历所有联合动作Q值,而只对部分联合动作Q值进行采样。在动作选择和执行阶段,每个智能体又独立选择动作,有效减少了学习阶段的计算量。实验结果表明,该算法能够以100%的成功率学习到最优联合策略。展开更多
插电式混合动力汽车(plug-in hybrid electric vehicles,PHEV)具有节能、环保、无续航里程焦虑的优点,是汽车领域发展的重点方向。但PHEV整车控制策略较为复杂,涉及到多动力源的能量分配,如何设计高效可靠的能量管理策略已经成为PHEV研...插电式混合动力汽车(plug-in hybrid electric vehicles,PHEV)具有节能、环保、无续航里程焦虑的优点,是汽车领域发展的重点方向。但PHEV整车控制策略较为复杂,涉及到多动力源的能量分配,如何设计高效可靠的能量管理策略已经成为PHEV研究的热点与难点。为了提升PHEV的燃油经济性和整车性能,提出了一种基于加权双Q学习的插电式混合动力汽车能量管理控制策略,采用加权双Q学习算法求解PHEV的能量分配。为了验证所提策略的有效性及可靠性,在Matlab/Simulink中搭建整车模型并进行仿真验证。研究结果表明:本文所提策略相比基于规则的CD/CS策略,燃油经济性在不同的行驶工况下平均提高6.38%;在不同的工况下,基于加权双Q学习策略的燃油经济性可达随机动态规划策略的98%,验证了本文所提策略具有较好的燃油经济性及工况适应性。展开更多
文摘为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q学习算法。首先,采用强化学习中的Q学习算法来实现姿态自抗扰控制参数的离线闭环快速自适应整定;然后,根据模糊控制的思路,将控制参数划分为不同区域,通过设定奖励,不断更新Q表;最后,将训练好的Q表用于飞行器的控制。仿真结果表明,相对于传统的线性自抗扰控制(linear active disturbance rejection control,LADRC)和滑模控制,基于Q学习的LADRC省去了人工调试参数的繁琐过程,且仍具有良好的跟踪效果。蒙特卡罗仿真测试结果验证了基于Q学习的LADRC的鲁棒性。
文摘强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampling based Q-learning,ASQ)算法。该算法采用集中训练-分散执行的框架,在集中训练阶段更新联合动作Q值时并没有遍历所有联合动作Q值,而只对部分联合动作Q值进行采样。在动作选择和执行阶段,每个智能体又独立选择动作,有效减少了学习阶段的计算量。实验结果表明,该算法能够以100%的成功率学习到最优联合策略。
文摘插电式混合动力汽车(plug-in hybrid electric vehicles,PHEV)具有节能、环保、无续航里程焦虑的优点,是汽车领域发展的重点方向。但PHEV整车控制策略较为复杂,涉及到多动力源的能量分配,如何设计高效可靠的能量管理策略已经成为PHEV研究的热点与难点。为了提升PHEV的燃油经济性和整车性能,提出了一种基于加权双Q学习的插电式混合动力汽车能量管理控制策略,采用加权双Q学习算法求解PHEV的能量分配。为了验证所提策略的有效性及可靠性,在Matlab/Simulink中搭建整车模型并进行仿真验证。研究结果表明:本文所提策略相比基于规则的CD/CS策略,燃油经济性在不同的行驶工况下平均提高6.38%;在不同的工况下,基于加权双Q学习策略的燃油经济性可达随机动态规划策略的98%,验证了本文所提策略具有较好的燃油经济性及工况适应性。