期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
非线性系统开闭环PI型迭代学习控制律及其收敛性 被引量:9
1
作者 皮道映 孙优贤 《控制理论与应用》 EI CAS CSCD 北大核心 1998年第3期400-403,共4页
对于一类参数未知的非线性系统在有限时域上的精确轨迹跟踪问题,提出了一种开闭环PI型选代学习控制策略,给出了其收敛的充要条件.分析表明:所给出的收敛条件推广了现有结果.
关键词 收敛性 非线性系统 迭代学习控制律 PI型
下载PDF
基于迭代学习控制律的放射源取样机的研制 被引量:1
2
作者 杨斌 王振玉 《机床与液压》 北大核心 2013年第15期144-147,共4页
针对已获应用的放射源取样机提出新的机械本体改进设计方案。该设计方案能够使放射源取样机获得更大的取样范围。在自动控制方面,为减少放射性射线对人体的辐射作用,应用一种迭代学习控制算法设计控制器,使得改进型放射源取样机能够获... 针对已获应用的放射源取样机提出新的机械本体改进设计方案。该设计方案能够使放射源取样机获得更大的取样范围。在自动控制方面,为减少放射性射线对人体的辐射作用,应用一种迭代学习控制算法设计控制器,使得改进型放射源取样机能够获得满意的轨迹跟踪控制效果,并能够实现在监控下的远程取样操作。 展开更多
关键词 放射源 取样机 迭代学习控制律
下载PDF
神经网络架构轻量化搜索的飞行器控制律自学习方法
3
作者 王昭磊 王露荻 +3 位作者 路坤锋 禹春梅 李晓敏 林平 《宇航学报》 EI CAS CSCD 北大核心 2024年第5期762-769,共8页
针对在运用Soft actor-critic(SAC)强化学习算法实现复杂的飞行器控制律自学习过程中,超参数设定高度依赖于人工经验进而造成设计难度大的问题,提出一种基于神经网络架构轻量化搜索策略的飞行器控制律自学习方法。该方法在将神经网络架... 针对在运用Soft actor-critic(SAC)强化学习算法实现复杂的飞行器控制律自学习过程中,超参数设定高度依赖于人工经验进而造成设计难度大的问题,提出一种基于神经网络架构轻量化搜索策略的飞行器控制律自学习方法。该方法在将神经网络架构设计问题转化为图拓扑生成问题的基础上,结合LSTM循环神经网络的图拓扑生成算法、基于权重共享的深度强化学习参数轻量化训练与评估机制,以及基于策略梯度的图拓扑生成器参数学习算法,给出了一种面向深度强化学习的轻量化自动搜索框架,实现了SAC训练算法中神经网络架构超参数的自动优化,进而完成了控制律的自学习。以三维空间返回着陆控制为例,验证了所提方法的有效性和实用性。 展开更多
关键词 飞行器 控制学习 自动机器学习 网络架构搜索 SAC强化学习
下载PDF
针对一类受限系统的优化迭代学习控制律 被引量:1
4
作者 高飞 慕春棣 朱纪洪 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第11期1629-1636,共8页
迭代学习控制律可以为重复执行的控制过程提供合适的控制输入以实现零误差跟踪。该文从优化的角度给出了2类迭代学习控制律,一类以未来时刻跟踪误差最小作为优化目标,按目标函数的最速下降方向进行迭代,也称为压缩映射迭代学习控制律;... 迭代学习控制律可以为重复执行的控制过程提供合适的控制输入以实现零误差跟踪。该文从优化的角度给出了2类迭代学习控制律,一类以未来时刻跟踪误差最小作为优化目标,按目标函数的最速下降方向进行迭代,也称为压缩映射迭代学习控制律;另一类以全部时刻跟踪误差以及迭代控制增量最小作为优化目标,最优解即为迭代学习控制增量,也称为最小二次型迭代学习控制律。在第二类迭代学习控制律的基础上,充分考虑反馈闭环内作动器的饱和约束,将其转化为控制系统输入增量的约束,因此构成凸规划问题,进而用二次规划方法求解。基于一类既有连续信号又有离散信号的混合受限闭环反馈控制系统,针对作动器的饱和特性,搭建了在饱和和非饱和阶段相互切换的系统动态模型。仿真验证了上述算法的有效性,并对比了两类算法的收敛性能,同时也表明压缩映射迭代学习控制律对系统饱和非线性具有一定的鲁棒性能,而二次规划方法可以充分考虑作动器约束,避免饱和发生,同时具有很好的误差收敛特性。 展开更多
关键词 受限系统 压缩映射 优化迭代学习控制律 二次规划
原文传递
高阶无模型自适应迭代学习控制 被引量:16
5
作者 池荣虎 侯忠生 +1 位作者 于镭 隋树林 《控制与决策》 EI CSCD 北大核心 2008年第7期795-798,共4页
针对一类非线性非仿射离散时间系统,提出了高阶无模型自适应迭代学习控制方案.控制器的设计和分析仅依赖于系统的输入/输出(I/O)数据,不需要已知任何其他知识.该方法采用了高阶学习律,可利用更多以前重复过程中的控制信息提高系统收敛性... 针对一类非线性非仿射离散时间系统,提出了高阶无模型自适应迭代学习控制方案.控制器的设计和分析仅依赖于系统的输入/输出(I/O)数据,不需要已知任何其他知识.该方法采用了高阶学习律,可利用更多以前重复过程中的控制信息提高系统收敛性,且学习增益可通过"拟伪偏导数"更新律迭代调节.仿真结果验证了所提出算法的有效性. 展开更多
关键词 无模型自适应控制 迭代学习控制 高阶学习控制律 学习增益
下载PDF
基于未知高频增益的非线性系统自适应迭代学习控制
6
作者 陈华东 蒋平 《控制与决策》 EI CSCD 北大核心 2002年第B11期715-718,共4页
针对一类单输入单输出不确定非线性重复跟踪系统 ,提出一种基于完全未知高频反馈增益的自适应迭代学习控制。与普通迭代学习控制需要学习增益稳定性前提条件不同 ,自适应迭代学习控制通过不断修改 Nussbaum形式的高频学习增益达到收敛... 针对一类单输入单输出不确定非线性重复跟踪系统 ,提出一种基于完全未知高频反馈增益的自适应迭代学习控制。与普通迭代学习控制需要学习增益稳定性前提条件不同 ,自适应迭代学习控制通过不断修改 Nussbaum形式的高频学习增益达到收敛。经证明当迭代次数 i→∞时 ,重复跟踪误差可一致收敛到任意小界δ。 展开更多
关键词 高频学习增益 非线性系统 自适应迭代学习控制 学习控制律
下载PDF
A novel policy iteration based deterministic Q-learning for discrete-time nonlinear systems 被引量:8
7
作者 WEI QingLai LIU DeRong 《Science China Chemistry》 SCIE EI CAS CSCD 2015年第12期143-157,共15页
In this paper, a novel iterative Q-learning algorithm, called "policy iteration based deterministic Qlearning algorithm", is developed to solve the optimal control problems for discrete-time deterministic no... In this paper, a novel iterative Q-learning algorithm, called "policy iteration based deterministic Qlearning algorithm", is developed to solve the optimal control problems for discrete-time deterministic nonlinear systems. The idea is to use an iterative adaptive dynamic programming(ADP) technique to construct the iterative control law which optimizes the iterative Q function. When the optimal Q function is obtained, the optimal control law can be achieved by directly minimizing the optimal Q function, where the mathematical model of the system is not necessary. Convergence property is analyzed to show that the iterative Q function is monotonically non-increasing and converges to the solution of the optimality equation. It is also proven that any of the iterative control laws is a stable control law. Neural networks are employed to implement the policy iteration based deterministic Q-learning algorithm, by approximating the iterative Q function and the iterative control law, respectively. Finally, two simulation examples are presented to illustrate the performance of the developed algorithm. 展开更多
关键词 adaptive critic designs adaptive dynamic programming approximate dynamic programming Q-LEARNING policy iteration neural networks nonlinear systems optimal control
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部