期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
连续状态自适应离散化基于K-均值聚类的强化学习方法 被引量:7
1
作者 文锋 陈宗海 +1 位作者 卓睿 周光明 《控制与决策》 EI CSCD 北大核心 2006年第2期143-147,共5页
使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算... 使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CM AC网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点. 展开更多
关键词 学习 K-均值聚类算法 Sarsa学习 连续状态 自适应离散
下载PDF
基于符号变量运算的状态空间方程离散化
2
作者 吕志民 林恩华 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第6期24-26,共3页
针对MATLAB控制系统工具箱中模型转换命令 ,不能对带符号变量连续状态空间方程进行离散化 ,提出借助符号数学工具箱中有关符号对象函数构成M文件 ,自动完成此过程 .该方法与常规方法所得结果比较 ,两者完全一致 。
关键词 符合变量 离散 符合数学工具箱 状态空间方程 计算机控制系统 CAD CAI
下载PDF
一种基于状态空间离散化的粒子滤波器
3
作者 蔡晶 《工业仪表与自动化装置》 2010年第2期109-111,59,共4页
粒子滤波是一种基于蒙特卡罗仿真的最优回归贝叶斯滤波算法。这种方法不受线性化误差和高斯噪声假定的限制,适用于任何状态转换或测量模型,因此能够很好地解决非线性、非高斯环境下系统的状态估计问题。在它的设计中最重要的一步就是建... 粒子滤波是一种基于蒙特卡罗仿真的最优回归贝叶斯滤波算法。这种方法不受线性化误差和高斯噪声假定的限制,适用于任何状态转换或测量模型,因此能够很好地解决非线性、非高斯环境下系统的状态估计问题。在它的设计中最重要的一步就是建议分布的选取。传统的算法需要在整个状态空间中进行计算,这浪费了大量的计算时间。该文提出一种新的建议分布的构造方法,它基于状态空间离散化的思想来构造建议分布。仿真结果表明,相对传统的算法这种粒子滤波器能用更少的粒子产生更准确的估计值。 展开更多
关键词 粒子滤波 建议分布 状态空间离散
下载PDF
面向DEM构建的不同等高线离散化方法适应性分析与评价 被引量:5
4
作者 张凯莉 赵明伟 《测绘科学技术学报》 北大核心 2019年第4期424-429,435,共7页
地形图是构建数字高程模型(DEM)的重要数据源,同时近几年空间插值方法在建模精度等方面的应用得到了不断的提高,因此将等高线离散化成高程点进行空间插值构建高质量DEM成为值得研究的课题。在此背景下,本研究从操作的易行性及空间插值... 地形图是构建数字高程模型(DEM)的重要数据源,同时近几年空间插值方法在建模精度等方面的应用得到了不断的提高,因此将等高线离散化成高程点进行空间插值构建高质量DEM成为值得研究的课题。在此背景下,本研究从操作的易行性及空间插值的原理出发,基于ArcGIS软件设计了6种离散化方法;并以江南某丘陵地区为实验区域,以大比例尺地形图为基础数据源,探讨了在不同影响因素下各离散化方法构建DEM时的差异性与适应性。 展开更多
关键词 数字高程模型 等高线离散 空间插值 采样率 适应
下载PDF
基于多状态劣化空间划分的多部件系统维修决策
5
作者 张晓红 张欣 +4 位作者 张剑飞 罗元庚 冯泽 石冠男 张小龙 《计算机集成制造系统》 EI CSCD 北大核心 2022年第3期769-779,共11页
针对劣化独立的同类型部件组成的系统,提出了最优的维修决策优化模型。将系统中部件的劣化过程描述为具有时间连续状态离散的马尔可夫过程,在分析系统转移特性的基础上,运用马尔可夫过程理论求解了系统中单个部件各状态的平稳概率表达式... 针对劣化独立的同类型部件组成的系统,提出了最优的维修决策优化模型。将系统中部件的劣化过程描述为具有时间连续状态离散的马尔可夫过程,在分析系统转移特性的基础上,运用马尔可夫过程理论求解了系统中单个部件各状态的平稳概率表达式,建立了具有多状态劣化特性的多部件系统的平均费用率最优决策模型,在系统长期平均费用率最小的情况下,得到系统最优的检测周期、机会和预防维修阈值。以风电机组为例,验证了维修决策模型的正确性和适用性。结果表明,该模型可以为实际的多部件系统给出较为经济且合理的维修策略。 展开更多
关键词 多部件系统 离散状态建模 状态空间划分 维修决策 风电机组
下载PDF
基于凸多面体抽象域的自适应强化学习技术研究 被引量:5
6
作者 陈冬火 刘全 +1 位作者 朱斐 金海东 《计算机学报》 EI CSCD 北大核心 2018年第1期112-131,共20页
表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,... 表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状态空间动态变化情况下各种参数在策略优化过程中的作用机理.实验结果显示当折扣率γ大于0.7时,算法展现出较好的综合性能,在初期,策略都快速地改进,后面的阶段平缓地趋向收敛(如图6~图13所示),并且对学习率α和各种抽象状态空间精化参数都具有较好的适应性;当折扣率γ小于0.6时,算法的性能衰退较快.抽象解释技术用于统计学习过程是一种较好的解决连续强化学习问题的思想,有许多问题值得进一步研究和探讨,例如基于近似模型的采样和值函数更新等问题. 展开更多
关键词 学习 凸多面体抽象域 连续状态空间 Q(λ) 自适应
下载PDF
基于改进全阶状态观测器的异步电机速度估算系统 被引量:3
7
作者 沈凤龙 满永奎 王建辉 《微电机》 北大核心 2019年第6期34-39,50,共7页
为解决全阶状态观测器反馈自适应率参数寻找最优解困难的问题,提出一种部分种群给定的粒子群优化算法。该算法将利用频域方法设计好的几组参数值编码后混入随机初始种群,使得初始种群中优良品质个体的数量大大增加,提高了收敛速度和搜... 为解决全阶状态观测器反馈自适应率参数寻找最优解困难的问题,提出一种部分种群给定的粒子群优化算法。该算法将利用频域方法设计好的几组参数值编码后混入随机初始种群,使得初始种群中优良品质个体的数量大大增加,提高了收敛速度和搜索效率。为解决不同转速下全阶状态观测器的离散精度和计算量相矛盾问题,提出在低速时采用欧拉法而在高速时采用简化的梯形法对全阶状态观测器进行离散化,既保证了系统估算精度,又使计算量大大减小。仿真和实验结果表明,基于全阶状态观测器转速估算系统具有良好的动态响应速度和稳态精度。 展开更多
关键词 全阶状态观测器 反馈自适应 粒子群优算法 离散
下载PDF
基于学习自适应估计环的迭代学习控制 被引量:2
8
作者 池荣虎 侯忠生 《仪器仪表学报》 EI CAS CSCD 北大核心 2005年第z1期800-802,共3页
针对一类具有强非线性和不确定性的离散时间系统,文章给出了一种基于学习自适应估计环的迭代学习控制方法。在迭代学习控制器的基础上设计了一个学习自适应估计环,用来镇定系统,给出迭代学习控制初始的控制输入值,同时根据估计出的系统... 针对一类具有强非线性和不确定性的离散时间系统,文章给出了一种基于学习自适应估计环的迭代学习控制方法。在迭代学习控制器的基础上设计了一个学习自适应估计环,用来镇定系统,给出迭代学习控制初始的控制输入值,同时根据估计出的系统参数来确定迭代学习增益的取值范围。文章基于状态空间描述,分析了迭代学习控制系统的收敛性。仿真研究表明,该控制器能够实现完全跟踪,减少系统的初始输出误差,并加快了收敛速度。 展开更多
关键词 学习自适应估计 迭代学习控制 非线性离散系统 状态空间
下载PDF
柔性直流输电系统高频谐振阻尼特性分析及自适应抑制 被引量:11
9
作者 尹嘉豪 吕敬 蔡旭 《电力系统自动化》 EI CSCD 北大核心 2022年第22期90-100,共11页
基于模块化多电平换流器(MMC)的柔性直流输电系统高频谐振现象频发,MMC的高频负阻尼特性是导致系统发生高频谐振的主要原因。文中首先采用谐波状态空间法建立了含解耦双同步参考坐标系锁相环(DDSRF-PLL)、正负序分离算法和正负序电流控... 基于模块化多电平换流器(MMC)的柔性直流输电系统高频谐振现象频发,MMC的高频负阻尼特性是导致系统发生高频谐振的主要原因。文中首先采用谐波状态空间法建立了含解耦双同步参考坐标系锁相环(DDSRF-PLL)、正负序分离算法和正负序电流控制的MMC交流侧详细阻抗模型。然后,采用阻尼分析方法分析了MMC的高频阻尼特性,并提出参数阻尼灵敏度以定量提取影响MMC高频阻尼的关键因素。最后,提出了一种柔性直流系统高频谐振自适应抑制策略,并与2种典型高频谐振抑制策略进行比较,验证了所提策略在不同电网运行条件和不同MMC控制延时下的有效性。 展开更多
关键词 柔性直流输电 模块多电平换流器(MMC) 高频谐振 稳定性分析 负序控制 阻尼灵敏度 自适应抑制 谐波状态空间 阻抗模型
下载PDF
支持合并的自适应tile coding算法
10
作者 施梦宇 刘全 傅启明 《通信学报》 EI CSCD 北大核心 2015年第2期186-192,共7页
针对自适应tile coding算法会产生多余划分的问题,提出一种支持合并的自适应tile coding算法——MATC。该算法能够消除传统自适应tile coding算法中产生的多余划分,进一步解决连续状态空间离散化的问题。将MATC算法应用于离散动作连续... 针对自适应tile coding算法会产生多余划分的问题,提出一种支持合并的自适应tile coding算法——MATC。该算法能够消除传统自适应tile coding算法中产生的多余划分,进一步解决连续状态空间离散化的问题。将MATC算法应用于离散动作连续状态的Mountain Car问题上,实验结果表明,该算法在学习过程中能消除传统tile coding算法的误划分所产生的不良影响,更准确地自动调整划分的精度,并更快地收敛到最佳策略。 展开更多
关键词 连续空间 离散 学习 自适应 TILE CODING
下载PDF
利用光变曲线估计猎鹰九号火箭末级的旋转状态研究
11
作者 苏向泽 汤儒峰 +1 位作者 李荣旺 李语强 《天文研究与技术》 CSCD 2021年第2期203-212,共10页
光度观测是地基观测空间目标的主要手段之一,利用光度信息能够估计空间目标的相关特征信息。为了更好地了解空间目标的旋转状态,选取具有代表性的猎鹰九号火箭末级作为研究对象,由其光变信息研究旋转状态。首先利用云南天文台1.2 m光学... 光度观测是地基观测空间目标的主要手段之一,利用光度信息能够估计空间目标的相关特征信息。为了更好地了解空间目标的旋转状态,选取具有代表性的猎鹰九号火箭末级作为研究对象,由其光变信息研究旋转状态。首先利用云南天文台1.2 m光学望远镜获取猎鹰九号火箭末级的光度数据,再对目标星等进行斜距归一化,得到目标光变信息并分析目标星等随时间变化的曲线,估计大致的旋转周期,再由相位离散最小化方法计算会合周期。根据太阳、目标和测站之间的位置关系、惯性主轴指向、旋转轴指向、初始相位等因素,采用姿态旋转矩阵计算理论星等,利用最小二乘原则确定惯性主轴方向及初相角度、旋转轴指向。最后给出了猎鹰九号火箭末级的旋转周期、会合周期以及旋转轴指向等参数,为后续开展其他空间目标光度信息研究提供参考。 展开更多
关键词 空间碎片的旋转状态 光变曲线 火箭体 相位离散最小 猎鹰九号 光度模型
下载PDF
液压伺服系统中数字控制器的优化设计
12
作者 吴盛英 《安徽工学院学报》 1987年第4期31-41,共11页
本文首先建立具有共轭复极点的传递函数的液压伺服系统离散化状态空间方程:X(K+1)=A(T)X(K)+B(T)V(K),着重讨论了如何求解系统矩阵A(T)控制矩阵B(T)中各元素值。然后讨论如何确定实际系统的性能指标,如何考虑实际的约束条件,最后按最优... 本文首先建立具有共轭复极点的传递函数的液压伺服系统离散化状态空间方程:X(K+1)=A(T)X(K)+B(T)V(K),着重讨论了如何求解系统矩阵A(T)控制矩阵B(T)中各元素值。然后讨论如何确定实际系统的性能指标,如何考虑实际的约束条件,最后按最优化理论确定数字控制器的算法及状态观测器的设计与连接。 展开更多
关键词 离散状态空间方程 数字控制器 加权矩阵
下载PDF
基于马尔可夫过程的多部件系统劣化状态空间划分模型 被引量:5
13
作者 张晓红 张欣 +1 位作者 石冠男 甘婕 《控制与决策》 EI CSCD 北大核心 2021年第2期418-428,共11页
工业系统的复杂性及智能化程度的不断提高使得系统的可靠性和安全性严重制约着系统正常的工作运转.长时间的工作运行会加大系统的故障风险,降低其安全稳定性.为了减少系统故障给产品质量和生产成本带来的影响,系统的最优维修决策问题逐... 工业系统的复杂性及智能化程度的不断提高使得系统的可靠性和安全性严重制约着系统正常的工作运转.长时间的工作运行会加大系统的故障风险,降低其安全稳定性.为了减少系统故障给产品质量和生产成本带来的影响,系统的最优维修决策问题逐渐成为研究的热点.分析系统的劣化状态有利于对系统做出正确的维修决策,延长系统的运行时间及减少经济损失.针对相同且劣化独立的多个部件组成的系统,建立离散状态建模下的多部件系统的多状态联合劣化空间划分模型.通过联合劣化状态空间的划分,给出所有维修需求组合及其概率计算通式,运用马尔科夫过程理论建立系统状态的平稳概率模型,并通过数值实验验证了该模型的正确性和有效性. 展开更多
关键词 多部件系统 离散状态建模 状态空间划分 马尔科夫过程 平稳概率
原文传递
PAC最优的RMAX-KNN探索算法 被引量:2
14
作者 李超 门昌骞 王文剑 《计算机科学与探索》 CSCD 北大核心 2020年第3期513-526,共14页
探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程... 探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低。针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分。RMAXKNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法。在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略。 展开更多
关键词 探索与利用的均衡 值函数 状态空间自适应离散化 概率近似正确(PAC)最优探索算法
下载PDF
网络控制系统的一种统一的Markov跳变模型 被引量:1
15
作者 刘磊明 童朝南 《北京科技大学学报》 EI CAS CSCD 北大核心 2007年第11期1163-1170,共8页
对于网络诱导延迟的上界大于或小于一个采样周期的两种不同情况的连续时间网络控制系统,采用离散化与增广状态空间方法,建立了统一的Markov链离散时间跳变模型.由于模型含有反映系统的网络诱导延迟的大小与计算精度的参数,因此它具有更... 对于网络诱导延迟的上界大于或小于一个采样周期的两种不同情况的连续时间网络控制系统,采用离散化与增广状态空间方法,建立了统一的Markov链离散时间跳变模型.由于模型含有反映系统的网络诱导延迟的大小与计算精度的参数,因此它具有更广泛的适应性.应用离散时间线性跳变系统理论,分析了保证系统均方稳定的充要条件.在所论及的保证系统均方稳定的设计算法中,给出了一种求内点法初始可行解的方法.在延迟带有一定任意性的车载倒立摆的网络控制设计中,该改进算法得到了有效应用. 展开更多
关键词 网络控制系统 延迟 跳变系统 MARKOV链 离散 增广状态空间方法
下载PDF
马尔可夫转移矩阵在应收账款回收额确定中的应用
16
作者 董宣君 戴新颖 陈一晓 《财会通讯(中)》 2010年第9期92-93,共2页
一、马尔可夫转移矩阵分析及求解 马尔可夫转移矩阵是基于"马氏性"和"平稳性"构建的。为了便于研究,首先将连续变化的时间进行"离散化"处理,同样把事物所处状况也划分成若干等级,分别与状态空间对应。
关键词 转移矩阵 应收账款回收 应用 矩阵分析 状态空间 平稳性 离散
下载PDF
连续学习分类系统研究
17
作者 顾大千 高阳 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2004年第5期765-768,共4页
学习分类系统(LCS)是一个动态感应环境的模拟认知系统,它利用环境反馈评估种群中的分类规则并通过遗传算法对种群进行进化.当环境输入包含连续属性时,经典LCS无法遍历整个状态空间.提出一种新的基于神经网络的连续学习分类系统,并通过... 学习分类系统(LCS)是一个动态感应环境的模拟认知系统,它利用环境反馈评估种群中的分类规则并通过遗传算法对种群进行进化.当环境输入包含连续属性时,经典LCS无法遍历整个状态空间.提出一种新的基于神经网络的连续学习分类系统,并通过实验验证了这种连续学习分类系统能够较准确地进行连续属性离散化,从而提高系统分类精度. 展开更多
关键词 连续属性离散 分类系统 分类规则 遍历 状态空间 神经网络 遗传算法 实验验证 LCS 反馈
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部