期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
An Online Q-Learning Method for Linear-Quadratic Nonzero-Sum Stochastic Differential Games with Completely Unknown Dynamics
1
作者 ZHANG Bao-Qiang WANG Bing-Chang CAO Ying 《Journal of Systems Science & Complexity》 SCIE EI CSCD 2024年第5期1907-1922,共16页
In this paper,the authors design a reinforcement learning algorithm to solve the adaptive linear-quadratic stochastic n-players non-zero sum differential game with completely unknown dynamics.For each player,a critic ... In this paper,the authors design a reinforcement learning algorithm to solve the adaptive linear-quadratic stochastic n-players non-zero sum differential game with completely unknown dynamics.For each player,a critic network is used to estimate the Q-function,and an actor network is used to estimate the control input.A model-free online Q-learning algorithm is obtained for solving this kind of problems.It is proved that under some mild conditions the system state and weight estimation errors can be uniformly ultimately bounded.A simulation with five players is given to verify the effectiveness of the algorithm. 展开更多
关键词 Actor-critic algorithm model-free adaptive control nonzero-sum stochastic game reinforcement learning
原文传递
Data-Driven Human-Robot Interaction Without Velocity Measurement Using Off-Policy Reinforcement Learning 被引量:3
2
作者 Yongliang Yang Zihao Ding +2 位作者 Rui Wang Hamidreza Modares Donald C.Wunsch 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2022年第1期47-63,共17页
In this paper,we present a novel data-driven design method for the human-robot interaction(HRI)system,where a given task is achieved by cooperation between the human and the robot.The presented HRI controller design i... In this paper,we present a novel data-driven design method for the human-robot interaction(HRI)system,where a given task is achieved by cooperation between the human and the robot.The presented HRI controller design is a two-level control design approach consisting of a task-oriented performance optimization design and a plant-oriented impedance controller design.The task-oriented design minimizes the human effort and guarantees the perfect task tracking in the outer-loop,while the plant-oriented achieves the desired impedance from the human to the robot manipulator end-effector in the inner-loop.Data-driven reinforcement learning techniques are used for performance optimization in the outer-loop to assign the optimal impedance parameters.In the inner-loop,a velocity-free filter is designed to avoid the requirement of end-effector velocity measurement.On this basis,an adaptive controller is designed to achieve the desired impedance of the robot manipulator in the task space.The simulation and experiment of a robot manipulator are conducted to verify the efficacy of the presented HRI design framework. 展开更多
关键词 adaptive impedance control data-driven method human-robot interaction(HRI) reinforcement learning velocity-free
下载PDF
虚假数据注入式攻击下无人水面船舶自适应神经输出反馈轨迹跟踪控制
3
作者 祝贵兵 吴晨 马勇 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1472-1484,共13页
本文主要研究网络环境下无人水面船舶(Unmanned surface vessels,USVs)遭受虚假数据注入式(False-data-injection,FDI)攻击的跟踪控制问题.其中,内部和外部不确定以及输入饱和约束等实际因素均考虑在设计中.在控制设计过程中,为避免将... 本文主要研究网络环境下无人水面船舶(Unmanned surface vessels,USVs)遭受虚假数据注入式(False-data-injection,FDI)攻击的跟踪控制问题.其中,内部和外部不确定以及输入饱和约束等实际因素均考虑在设计中.在控制设计过程中,为避免将船舶速度的攻击信号引入闭环系统,采用分类重构思想,构造一种新的神经网络(Neural network,NN)状态观测器,同时重构船舶速度和攻击信号.进一步,在backstepping设计框架下,利用重构的攻击信号补偿USVs运动学通道因虚假数据注入式攻击引起的非匹配不确定项.在动力学设计通道中,利用自适应神经技术和单参数学习法,重构由内部和外部不确定组成的复合不确定部分,进而提出自适应神经输出反馈控制方案.理论分析表明,即便在FDI攻击、内外不确定以及执行器饱和约束的情况下,所提控制方案仍能迫使USVs跟踪给定的参考轨迹.同时,仿真和比较结果证实了所提控制方案的有效性和优越性. 展开更多
关键词 无人水面船舶 虚假数据注入式攻击 跟踪控制 单参数学习法 自适应神经控制 输出反馈
下载PDF
迭代学习控制器参数的数据驱动自适应整定方法
4
作者 于瀛祯 林娜 池荣虎 《青岛科技大学学报(自然科学版)》 CAS 2024年第1期121-128,共8页
针对PID型迭代学习控制(iterative learning control,ILC)方法,提出了两种数据驱动自适应整定(data-driven adaptive tuning,DDAT)方法。首先采用紧格式迭代动态线性化(compact form iterative dynamic linearization,CFIDL)方法将原始... 针对PID型迭代学习控制(iterative learning control,ILC)方法,提出了两种数据驱动自适应整定(data-driven adaptive tuning,DDAT)方法。首先采用紧格式迭代动态线性化(compact form iterative dynamic linearization,CFIDL)方法将原始的非线性系统转化为等价的线性数据模型,设计了一个目标函数来动态地调整PID型ILC的学习增益。其次,通过对设计的目标函数进行优化,提出了一种基于CFIDL的DDAT方法。该方法只使用实际的I/O数据,而不需要任何机理模型信息。进一步,引入偏格式迭代动态线性化(partial form iterative dynamic linearization,PFIDL)方法对结果进行扩展,提出了一种基于PFIDL的DDAT方法。所提出的两种DDAT方法都可以提高PID型ILC对不确定性的鲁棒性。最后,通过仿真验证了两种方法的有效性。 展开更多
关键词 数据驱动方法 参数的自适应整定 迭代学习控制 优化
下载PDF
膝-踝-趾动力型假肢解耦控制研究
5
作者 耿艳利 王希瑞 +2 位作者 武正恩 郭欣 王倩 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第2期324-331,共8页
针对膝-踝-趾动力型假肢系统的强耦合性,导致系统控制效果不理想等问题,本文设计控制法则分解法解耦器对系统进行解耦,降低耦合度,提高控制效果。利用拉格朗日方程建立了膝-踝-趾动力型假肢系统支撑末期的动力学模型,此模型的耦合度为1.... 针对膝-踝-趾动力型假肢系统的强耦合性,导致系统控制效果不理想等问题,本文设计控制法则分解法解耦器对系统进行解耦,降低耦合度,提高控制效果。利用拉格朗日方程建立了膝-踝-趾动力型假肢系统支撑末期的动力学模型,此模型的耦合度为1.22,耦合性较强,需要进行解耦;基于控制法则分解法设计模型解耦器,以此简化假肢系统,将耦合度强的系统简化为膝、踝、趾独立控制的模型;基于自适应迭代学习设计控制器,对解耦前后三自由度假肢系统的各关节进行控制。结果表明:此解耦器可以将假肢模型简化为3个单输入、单输出的系统,同时降低关节间的耦合度,加快系统的收敛速度,与解耦前的控制效果相比,解耦后系统收敛误差明显减小。本文为多关节假肢系统提供了模型简化方法,为实物样机控制提供理论验证。 展开更多
关键词 膝-踝-趾动力型假肢 动力学模型 控制法则分解法解耦器 自适应迭代学习 解耦控制策略 被动型假肢 拉格朗日方程 轨迹跟踪
下载PDF
基于强化学习的FANET自适应MAC协议
6
作者 闫涛 赵一帆 +2 位作者 高明虎 陈虎 唐嘉宁 《计算机工程与设计》 北大核心 2024年第9期2613-2619,共7页
针对预设的单一媒体接入控制(MAC)协议难以满足飞行自组织网络(FANET)多样化业务需求的问题,提出一种基于Q Learning的FANET自适应MAC协议(FQL-AMAC)。使用两种基准协议联合控制,根据当前网络条件自动选择并切换至服务质量(QoS)显著的MA... 针对预设的单一媒体接入控制(MAC)协议难以满足飞行自组织网络(FANET)多样化业务需求的问题,提出一种基于Q Learning的FANET自适应MAC协议(FQL-AMAC)。使用两种基准协议联合控制,根据当前网络条件自动选择并切换至服务质量(QoS)显著的MAC协议。优化单个网络性能指标实现QoS局部最优,采用熵值法融合吞吐量、延迟并提出综合性能指标构建奖励函数,以趋近QoS全局最优。实验结果表明,FQL-AMAC能有效选择最佳协议运行,吞吐量、延迟和综合性能表现优于现有协议。 展开更多
关键词 飞行自组织网络 媒体接入控制 多样化业务 自适应选择 Q learning 熵值法 综合性能
下载PDF
基于RBF最小参数学习法的正流量变量泵滑模自适应控制 被引量:2
7
作者 孙承志 张元良 +1 位作者 康杰 牛东东 《机床与液压》 北大核心 2023年第20期157-162,共6页
为了提高正流量变量泵的性能,提出基于RBF最小参数学习法的正流量变量泵滑模自适应控制方法。分析正流量变量泵电液伺服系统的动力学特性,并进行系统辨识实验获得较为精确的系统数学函数模型;基于RBF最小参数学习法设计滑模控制器,在系... 为了提高正流量变量泵的性能,提出基于RBF最小参数学习法的正流量变量泵滑模自适应控制方法。分析正流量变量泵电液伺服系统的动力学特性,并进行系统辨识实验获得较为精确的系统数学函数模型;基于RBF最小参数学习法设计滑模控制器,在系统参数不确定性、摩擦力干扰和系统泄漏等非线性因素的情况下实现对目标流量的跟踪响应和自适应控制;最后利用MATLAB/Simulink对正流量变量泵的控制系统性能进行仿真实验,并和传统的PID控制器和模糊PID控制器进行比较。仿真实验结果验证了所设计控制方法的可行性和有效性。 展开更多
关键词 滑模自适应控制 RBF最小参数学习法 电液伺服系统 鲁棒性
下载PDF
基于机器学习的风力发电变桨系统自适应容错控制方法 被引量:2
8
作者 郑小春 李明 +2 位作者 黄志星 王明辉 邱建培 《机械设计与制造工程》 2023年第10期57-60,共4页
针对风力发电变桨系统自动控制误差计算错误、不能自动容错而导致停止运行的问题,研究基于机器学习的风力发电变桨系统自适应容错控制方法。简化向量矩阵的计算过程,保证计算控制器跟踪误差的计算准确率,设计控制器补偿信号的模型结构,... 针对风力发电变桨系统自动控制误差计算错误、不能自动容错而导致停止运行的问题,研究基于机器学习的风力发电变桨系统自适应容错控制方法。简化向量矩阵的计算过程,保证计算控制器跟踪误差的计算准确率,设计控制器补偿信号的模型结构,定义风力发电系统的真实控制率,基于机器学习优化容错算法,建立风力发电变桨系统容错控制自适应逼近模型。实验结果表明,在15组重复性实验中,实验组功率超出临界值的次数共有74次,远小于对照组,表明该方法能够更好地保证机组的正常运行,从而提高机组的稳定性和可靠性。 展开更多
关键词 机器学习 风力发电机 风力发电变桨系统 自适应算法 容错控制方法
下载PDF
基于强化学习的自适应AGC最优控制方法研究
9
作者 李祥 《电工技术》 2023年第15期47-49,53,共4页
AGC的分区协同是电网调度中的一个关键问题,也是CPS规范所要求的一个控制指标。通过运用有关平衡的理念,建立地区间的交流,促进地区间的合作,提升CPS的评价,防止一方为了提升自己的评价,导致另一方的评价变得更加糟糕,所以要根据总体的... AGC的分区协同是电网调度中的一个关键问题,也是CPS规范所要求的一个控制指标。通过运用有关平衡的理念,建立地区间的交流,促进地区间的合作,提升CPS的评价,防止一方为了提升自己的评价,导致另一方的评价变得更加糟糕,所以要根据总体的评价指标来进行协调。将CEQ方法引入到两个区,通过引入PI进行修正调整,得到了很好的结果,从而使系统的调整性能得到了改善。 展开更多
关键词 强化学习 自适应AGC 最优控制 控制方法
下载PDF
基于无模型自适应控制方法的直流电机调速系统 被引量:8
10
作者 曹荣敏 侯忠生 +1 位作者 白雪峰 黄健 《电气传动》 北大核心 2008年第7期26-30,共5页
设计了一种应用数据采集卡的无模型学习自适应直流调速系统,将基于全格式线性化的单入单出非线性离散时间系统的无模型自适应控制方法应用在直流电机速度控制中,控制器的设计是无模型的,弥补了经典自适应控制阶数高时在线计算量过大而... 设计了一种应用数据采集卡的无模型学习自适应直流调速系统,将基于全格式线性化的单入单出非线性离散时间系统的无模型自适应控制方法应用在直流电机速度控制中,控制器的设计是无模型的,弥补了经典自适应控制阶数高时在线计算量过大而不能适应于系统快速变化过程的不足。系统包括控制部分和实时仿真部分,实现了转速采集、电机控制、参数修改及轨迹绘制的实时过程。采用Visual Basic(VB)编写的控制软件,通过动态链接库调用的方式控制数据采集卡。实验结果展示了该方法的稳定性和抑止外部干扰的有效性和鲁棒性。 展开更多
关键词 无模型学习自适应控制方法 直流电机 数据采集 稳定性 鲁棒性
下载PDF
无模型控制方法在直线电机控制中的仿真研究 被引量:20
11
作者 曹荣敏 侯忠生 《系统仿真学报》 EI CAS CSCD 北大核心 2006年第10期2874-2877,2881,共5页
将基于偏格式线性化的非线性系统无模型学习自适应控制方法应用在直线电机的速度和位置控制中。控制器的设计是直接基于称为伪偏导数的向量,伪偏导数是通过新型参数估计算法,根据给出的永磁直流直线电机非线性系统模型的输入输出信息在... 将基于偏格式线性化的非线性系统无模型学习自适应控制方法应用在直线电机的速度和位置控制中。控制器的设计是直接基于称为伪偏导数的向量,伪偏导数是通过新型参数估计算法,根据给出的永磁直流直线电机非线性系统模型的输入输出信息在线导出的。利用Matlab软件进行仿真实验证明了该方法对电机这种具有不确知动态的非线性系统的有效性和稳定性。 展开更多
关键词 无模型学习自适应控制方法 直线电机 非线性系统 计算机仿真 稳定性
下载PDF
动态模糊神经网络及其快速自调整学习算法 被引量:16
12
作者 徐春梅 尔联洁 刘金琨 《控制与决策》 EI CSCD 北大核心 2005年第2期226-229,共4页
针对非线性动态系统辨识和控制的特点,对4层模糊神经网络进行了优化和改进.形成了动态模糊神经网络,提高了网络的稳定性和对动态系统的辨识能力,同时给出了基于Lyapunov函数稳定收敛定理的各权向量以及权矩阵学习速率的自适应调整算法.... 针对非线性动态系统辨识和控制的特点,对4层模糊神经网络进行了优化和改进.形成了动态模糊神经网络,提高了网络的稳定性和对动态系统的辨识能力,同时给出了基于Lyapunov函数稳定收敛定理的各权向量以及权矩阵学习速率的自适应调整算法.应用于非线性动态系统的辨识和控制仿真试验表明,改进后的动态模糊神经网络与模糊神经网络相比,可取得更好的辨识精度和跟踪控制效果. 展开更多
关键词 动态模糊神经网络 控制 自适应学习算法 非线性动态系统
下载PDF
一类非参数不确定系统的自适应重复学习控制 被引量:6
13
作者 陈强 余歆祺 《控制理论与应用》 EI CAS CSCD 北大核心 2020年第6期1349-1357,共9页
本文针对一类非参数不确定系统提出一种全限幅自适应重复学习控制方法.利用期望轨迹的周期特性,构造周期性期望控制输入,并基于Lyapunov方法设计自适应重复学习控制器,实现系统对周期性期望轨迹的高精度跟踪,且无需已知非参数不确定性... 本文针对一类非参数不确定系统提出一种全限幅自适应重复学习控制方法.利用期望轨迹的周期特性,构造周期性期望控制输入,并基于Lyapunov方法设计自适应重复学习控制器,实现系统对周期性期望轨迹的高精度跟踪,且无需已知非参数不确定性的上界.设计全限幅学习律估计未知的期望控制输入,保证估计值被限制在指定的界内.同时,通过构造完全平方式消除部分误差相关项,控制器设计中可避免使用符号函数,从而抑制控制器抖振问题.最后,基于Lyapunov方法对误差收敛性进行了分析,并通过仿真对比验证本文所提方法的有效性. 展开更多
关键词 重复学习控制 自适应控制系统 非参数不确定性 LYAPUNOV方法
下载PDF
基于变结构技术的噪声有源自校正控制 被引量:1
14
作者 张奇志 贾永乐 《声学学报》 EI CSCD 北大核心 2002年第1期33-37,共5页
研究有源噪声控制(ANC)问题,给出了有源噪声控制问题的一般模型。研究表明,采用前馈和反馈技术的有源噪声控制分别与控制理论中的干扰可测和干扰不可测的自适应控制相对应。提出了一种基于滑模变结构技术的噪声有源自适应控制方... 研究有源噪声控制(ANC)问题,给出了有源噪声控制问题的一般模型。研究表明,采用前馈和反馈技术的有源噪声控制分别与控制理论中的干扰可测和干扰不可测的自适应控制相对应。提出了一种基于滑模变结构技术的噪声有源自适应控制方法,可以处理所有模型参数均未知的有源噪声控制问题,给出了一种未知模型参数的在线自适应学习算法。证明了闭环控制系统在Lyapunov意义下的稳定性。仿真结果表明,基于滑模变结构技术的噪声有源自适应控制是一种非常有效的控制方法。 展开更多
关键词 滑模变结构 有源噪声控制 ANC 模型 自校正控制 反馈控制 闭环控制系统
下载PDF
指挥控制信息系统动态演化的自适应决策方法 被引量:5
15
作者 吴桐 李青山 +1 位作者 戴清 毛晓彬 《指挥信息系统与技术》 2018年第5期43-50,共8页
军事指挥控制信息系统的高复杂性和高动态环境,给指挥控制系统动态演化带来新挑战,传统的通过专家定义的离线决策方法已不适用于复杂动态的运行环境。分析了复杂动态环境中的2个挑战:同时发生的多个变化之间存在演化方向冲突问题;变化... 军事指挥控制信息系统的高复杂性和高动态环境,给指挥控制系统动态演化带来新挑战,传统的通过专家定义的离线决策方法已不适用于复杂动态的运行环境。分析了复杂动态环境中的2个挑战:同时发生的多个变化之间存在演化方向冲突问题;变化发生的上下文状态无法预知。基于双层感知—分析—决策—执行(MAPE)控制循环的自适应框架,在上下2层使用不同的自适应决策方法。上层采用基于搜索的自适应决策,解决演化方向冲突问题,并进行全局决策;下层采用易实现且开销更低的基于强化学习的自适应决策进行局部决策和调整。 展开更多
关键词 指挥控制信息系统 自适应决策 基于搜索工程的软件工程 强化学习
下载PDF
二阶系统非一致目标跟踪混合自适应迭代学习控制 被引量:1
16
作者 孙云平 李俊民 王元亮 《工程数学学报》 CSCD 北大核心 2008年第1期10-16,共7页
针对一类含有时变和时不变参数的二阶非线性系统,利用Backstepping方法,提出了一种新的自适应迭代学习控制方法,该方法由微分-差分型自适应律和学习控制律组成,保证对非一致目标的跟踪误差的平方在一个有限区间上的积分收敛于零,克服了... 针对一类含有时变和时不变参数的二阶非线性系统,利用Backstepping方法,提出了一种新的自适应迭代学习控制方法,该方法由微分-差分型自适应律和学习控制律组成,保证对非一致目标的跟踪误差的平方在一个有限区间上的积分收敛于零,克服了传统的迭代学习控制对目标轨线的限制,可以跟踪非一致目标轨线。通过构造复合能量函数,给出了闭环系统收敛的一个充分条件。仿真结果说明了该方法的可行性和有效性。 展开更多
关键词 自适应迭代学习控制 BACKSTEPPING方法 非一致目标跟踪 混合型的参数 非线性系统 复合能量函数
下载PDF
基于自适应神经模糊推理系统的船舶航向自抗扰控制 被引量:14
17
作者 秦贝贝 陈增强 +1 位作者 孙明玮 孙青林 《智能系统学报》 CSCD 北大核心 2020年第2期255-263,共9页
在实际的船舶航向控制中,航向系统在受到外界风浪干扰时表现出的模型非线性和参数不确定性,为航向控制器的设计带来了困难。针对该问题,设计了常规的线性自抗扰控制器和两种在线学习的自抗扰控制器。利用自适应神经模糊推理系统(ANFIS)... 在实际的船舶航向控制中,航向系统在受到外界风浪干扰时表现出的模型非线性和参数不确定性,为航向控制器的设计带来了困难。针对该问题,设计了常规的线性自抗扰控制器和两种在线学习的自抗扰控制器。利用自适应神经模糊推理系统(ANFIS)实现自抗扰控制器参数的在线调整,设计了自适应PD的自抗扰控制器和自适应扩张状态观测器(ESO)的自抗扰控制器;分别在船舶受到外界扰动和参数摄动的两种情况下进行了仿真,仿真表明自适应自抗扰控制器控制效果更好,抗扰能力更强,表现出较强的鲁棒性。 展开更多
关键词 航向控制 自适应神经模糊推理系统(ANFIS) 自适应自抗扰控制器 野本(Nomoto)模型 线性自抗扰控制(LADRC) 非线性系统 梯度下降法 参数学习
下载PDF
基于MDP自适应决策的库存控制
18
作者 刘虹 《河北建筑科技学院学报》 2006年第3期109-112,共4页
MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解... MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了。 展开更多
关键词 MDP自适应决策 在线Q(λ)算法 库存控制 连续状态和决策空间 神经网络
下载PDF
一种基于人类学习认知过程的PID控制方法
19
作者 李继广 董彦非 +2 位作者 屈高敏 杨雷恒 易俊杰 《应用科技》 CAS 2019年第2期75-79,共5页
针对传统PID方法对复杂系统非线性问题控制能力不足缺点,提出了一种基于人类学习认识模型的智能PID控制方法。首先建立了人类不同年龄阶段学习认识过程的数学模型,并应用该模型设计了一种可以在线自主调参的智能PID控制器。该控制器不... 针对传统PID方法对复杂系统非线性问题控制能力不足缺点,提出了一种基于人类学习认识模型的智能PID控制方法。首先建立了人类不同年龄阶段学习认识过程的数学模型,并应用该模型设计了一种可以在线自主调参的智能PID控制器。该控制器不仅具有自学习、自调整的能力,还克服了大多数智能方法计算迭代复杂、没有数学解析模型的缺点。仿真结果表明本文设计的控制器是有效的。 展开更多
关键词 智能控制 人类学习模型 控制方法 智能PID控制器 自适应方法 参数整定 复杂系统 非线性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部