期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
结构化状态空间中的递阶再励学习方法
1
作者 孟江华 朱纪洪 孙增圻 《控制与决策》 EI CSCD 北大核心 2007年第2期233-237,共5页
在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶... 在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题. 展开更多
关键词 再励学习(RL) 递阶再励学习 结构化状态空间
下载PDF
基于再励学习蚁群算法的多约束QoS路由方法 被引量:10
2
作者 陈岩 杨华江 沈林成 《计算机科学》 CSCD 北大核心 2007年第5期25-27,44,共4页
本文研究了多约束QoS路由问题,给出基于模糊评判的路由模型,实现了多QoS约束的综合优化;同时提出一种再励学习蚁群路由算法对该问题进行求解,算法通过对蚂蚁搜索路径进行评价产生再励信号,并根据再励信号采取了不同的信息素更新策略,提... 本文研究了多约束QoS路由问题,给出基于模糊评判的路由模型,实现了多QoS约束的综合优化;同时提出一种再励学习蚁群路由算法对该问题进行求解,算法通过对蚂蚁搜索路径进行评价产生再励信号,并根据再励信号采取了不同的信息素更新策略,提高了算法的寻优能力和收敛速度。仿真实验表明,该算法能快速得到较大程度满足业务QoS要求的路径。 展开更多
关键词 多约束QOS 模糊评判 网络路由 再励学习 蚁群算法
下载PDF
卫星姿态再励学习的模糊神经控制 被引量:6
3
作者 管萍 刘星桥 陈家斌 《北京理工大学学报》 EI CAS CSCD 北大核心 2003年第3期313-316,326,共5页
将再励学习的模糊神经控制引入卫星姿态控制中,给出详尽的实现方法,推导了模糊神经控制器的自学习算法.直接利用再励信号,对控制器的参数进行在线调节,不需要控制器的学习样本.仿真结果表明该控制算法能有效地克服卫星的不确定性,具有... 将再励学习的模糊神经控制引入卫星姿态控制中,给出详尽的实现方法,推导了模糊神经控制器的自学习算法.直接利用再励信号,对控制器的参数进行在线调节,不需要控制器的学习样本.仿真结果表明该控制算法能有效地克服卫星的不确定性,具有较强的鲁棒性,可实现较高精度的卫星姿态控制. 展开更多
关键词 姿态控制 模糊神经控制 再励学习 神经网络
下载PDF
基于再励学习与遗传算法的交通信号自组织控制 被引量:12
4
作者 杨煜普 欧海涛 《自动化学报》 EI CSCD 北大核心 2002年第4期564-568,共5页
提出一种基于再励学习和遗传算法的交通信号自组织控制方法 .再励学习针对每一个道路交叉口交通流的优化 ,修正每个信号灯周期的绿信比 .遗传算法则产生局部学习过程的全局优化标准 ,修正信号灯周期的大小 .这种方法将局部优化和全局优... 提出一种基于再励学习和遗传算法的交通信号自组织控制方法 .再励学习针对每一个道路交叉口交通流的优化 ,修正每个信号灯周期的绿信比 .遗传算法则产生局部学习过程的全局优化标准 ,修正信号灯周期的大小 .这种方法将局部优化和全局优化统一起来 ,克服了现有的控制方法需要大量数据传输通讯、准确的交通模型等缺陷 . 展开更多
关键词 再励学习 遗传算法 交通信号 自组织控制 交通系统 信号灯控制 城市交通
下载PDF
基于再励学习和遗传算法的交通信号自组织控制 被引量:3
5
作者 欧海涛 杨煜普 +1 位作者 张文渊 许晓鸣 《电机与控制学报》 EI CSCD 2000年第2期80-83,共4页
提出一种将再励学习与遗传算法相结合的遗传再励学习方法对交通信号进行自组织控制。再励学习是针对每一个道路交叉口交通流的优化,修正每个信号灯周期的绿性比;而遗传算法产生局部学习过程的全局优化标准,即是修正信号灯周期的大小... 提出一种将再励学习与遗传算法相结合的遗传再励学习方法对交通信号进行自组织控制。再励学习是针对每一个道路交叉口交通流的优化,修正每个信号灯周期的绿性比;而遗传算法产生局部学习过程的全局优化标准,即是修正信号灯周期的大小。这种方法克服了现有的控制方法需要大量数据传输通讯、准确的交通模型等缺陷,将局部优化和全局优化统一起来。通过计算机仿真实验表明了方法的有效性。 展开更多
关键词 交通信号 自组织控制 再励学习 遗传算法
下载PDF
一种新的CMAC函数逼近器及其再励学习方法 被引量:3
6
作者 张芳 颜国正 林良明 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第10期1439-1442,共4页
针对复杂再励学习系统状态空间存在维数灾问题 ,结合多移动机器人协调避障路径规划实际应用 ,用非均匀模糊分割方法将状态空间分解成模糊子空间 ,相应地将小脑模型连接控制器网络 ( Cerebellar Model Articulation Controller,CMAC)函... 针对复杂再励学习系统状态空间存在维数灾问题 ,结合多移动机器人协调避障路径规划实际应用 ,用非均匀模糊分割方法将状态空间分解成模糊子空间 ,相应地将小脑模型连接控制器网络 ( Cerebellar Model Articulation Controller,CMAC)函数逼近器改进为模糊 CMAC( FuzzyCMAC,FCMAC)函数逼近器 ,并将 FCMAC函数逼近器置入滞后更新多步 Q( Postphoned- Up-dating Multi- Step Q- learning,PUMSQ)学习算法 ,提出 FCMAC- PUMSQ学习算法 .仿真实验证明 ,该算法有效且有较好的鲁棒性 。 展开更多
关键词 CMAC 再励学习 函数逼近器 小脑模型连接控制器 多移动机器人 协调控制 避撞路径规划
下载PDF
基于再励学习的多移动机器人协调避障路径规划方法 被引量:3
7
作者 张芳 颜国正 林良明 《计算机工程与应用》 CSCD 北大核心 2003年第3期80-83,共4页
随着多移动机器人协调系统的应用向未知环境发展,一些依赖于环境模型的路径规划方法不再适用。而利用再励学习与环境直接交互,不需要先验知识和样本数据的特点,该文将再励学习应用于多机器人协调系统中,提出了基于再励学习的避障路径规... 随着多移动机器人协调系统的应用向未知环境发展,一些依赖于环境模型的路径规划方法不再适用。而利用再励学习与环境直接交互,不需要先验知识和样本数据的特点,该文将再励学习应用于多机器人协调系统中,提出了基于再励学习的避障路径规划方法,并将再励函数设计为基于行为分解的无模型非均匀结构。计算机仿真实验结果表明该方法有效,并有较好的鲁棒性,新的再励函数结构使得学习速度得以提高。 展开更多
关键词 避障路径规划 路径规划 再励学习 函数 多机器人协调 移动机器人
下载PDF
基于遗传算法和神经网络预测的再励学习 被引量:5
8
作者 张华军 赵金 《计算机工程》 CAS CSCD 北大核心 2010年第1期18-20,24,共4页
提出一种基于遗传算法和神经网络预测法相结合的再励学习方法,利用遗传算法对全局进行最优解搜索,将进化过程中产生的数据用来训练神经网络预测器,当再励学习逼近最优解时,利用预测网络估计动作网络的参数、结构与系统响应之间的映射关... 提出一种基于遗传算法和神经网络预测法相结合的再励学习方法,利用遗传算法对全局进行最优解搜索,将进化过程中产生的数据用来训练神经网络预测器,当再励学习逼近最优解时,利用预测网络估计动作网络的参数、结构与系统响应之间的映射关系,用预测网络逼近最优解的能力引导遗传算法在局部向最优解快速逼近,以解决遗传算法局部振荡问题,从而实现快速学习的能力。将其应用于矢量控制交流电机的速度环控制器自学习中,仿真实验验证了该算法的有效性。 展开更多
关键词 再励学习 遗传算法 神经网络预测 矢量控制
下载PDF
Agent组织规则的再励学习 被引量:2
9
作者 张伟 王一川 石纯一 《计算机研究与发展》 EI CSCD 北大核心 2003年第3期430-434,共5页
Agent组织是一种灵活有效的多Agent系统求解方式 Agent组织规则在Agent组织的求解过程中起着重要作用 ,可以有效地减少冲突提高求解效率 给出了一种基于再励学习的Agent组织规则生成机制和相应的算法 ,通过实验表明了算法的有效性 。
关键词 AGENT AGENT组织 Agent组织规则 再励学习
下载PDF
非线性系统的再励学习控制研究(英文) 被引量:2
10
作者 蒋志明 王丽红 +1 位作者 段锁林 林廷圻 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第6期899-902,共4页
研究了一种带有CMAC神经网络的再励学习 (RL)控制方法 ,以解决具有高度非线性的系统控制问题 .研究的重点在于算法的简化以及具有连续输出的函数学习上 .控制策略由两部分构成 :再励学习控制器和固定增益常规控制器 .前者用于学习系统... 研究了一种带有CMAC神经网络的再励学习 (RL)控制方法 ,以解决具有高度非线性的系统控制问题 .研究的重点在于算法的简化以及具有连续输出的函数学习上 .控制策略由两部分构成 :再励学习控制器和固定增益常规控制器 .前者用于学习系统的非线性 ,后者用于稳定系统 .仿真结果表明 ,所提出的控制策略不仅是有效的 ,而且具有很高的控制精度 . 展开更多
关键词 再励学习控制 神经网络 学习控制 非线性系统
下载PDF
一类再励学习控制器设计及其在倒车模型中的应用 被引量:1
11
作者 马勇 杨煜普 +3 位作者 许晓鸣 石坚 卓斌 吴远朋 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1661-1663,共3页
考虑到神经网络学习算法的特点 ,给出了一种基于再励学习的自组织模糊 CPN,它结合了自组织模糊 CPN和再励算法的优点 ,在控制过程中在线调整网络结构以及对网络参数学习 ,学习效率高 ,控制结构简单 .可以不要求受控对象的学习模型 ,实... 考虑到神经网络学习算法的特点 ,给出了一种基于再励学习的自组织模糊 CPN,它结合了自组织模糊 CPN和再励算法的优点 ,在控制过程中在线调整网络结构以及对网络参数学习 ,学习效率高 ,控制结构简单 .可以不要求受控对象的学习模型 ,实现在线控制 ,应用在倒车模型中仿真结果展示了所设计系统的良好控制性能 . 展开更多
关键词 自组织对传网络 再励学习 模糊控制 在线学习
下载PDF
再励学习——原理、算法及其在智能控制中的应用 被引量:30
12
作者 阎平凡 《信息与控制》 CSCD 北大核心 1996年第1期28-34,共7页
综述了再励学习(Reinforcement Learning)的原理,主要算法,基于神经网络的实现及其在智能控制中的作用,探讨了应进一步研究的问题.
关键词 再励学习 学习控制 智能控制
下载PDF
一种改进的基于再励学习算法的模糊神经BOXES控制系统 被引量:2
13
作者 马勇 许晓鸣 张卫东 《模糊系统与数学》 CSCD 2000年第1期78-83,共6页
本文给出了一种改进的基于再励算法的神经网络 BOXES控制系统 ,引入超维椭球体模糊划分状态空间的概念 ,并且通过神经网络的再励学习实现了对状态空间的自动划分。最后 ,应用到倒立摆控制中的仿真结果展示了控制系统的有效性。
关键词 模糊BOXES控制系统 再励学习算法 模糊控制
下载PDF
TD再励学习在卫星姿态控制中的应用 被引量:1
14
作者 刘向东 崔晓婷 +1 位作者 王华 张宇河 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第3期248-250,共3页
随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的... 随着卫星姿态控制系统对控制精度、鲁棒性和抗干扰要求的不断提高,将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,并采用基于时差(TD)法的再励学习来解决模糊神经网络参数在线调整的问题,可以在无需训练样本的前提下实现控制器的在线学习.仿真结果表明,这种结合再励学习的控制算法不仅可以满足对姿态控制精度的要求,有效地抵制了外界干扰,并对卫星的不确定性有较强的鲁棒性. 展开更多
关键词 模糊神经网络 再励学习 时差法(TD)
下载PDF
基于CMAC再励学习控制的电梯群控调度方法 被引量:2
15
作者 刘建昌 林琳 《信息与控制》 CSCD 北大核心 2005年第4期495-499,共5页
提出一种新的智能优化调度方法,将再励学习控制运用到电梯群控系统中,采用基于交通模式识别的小脑模型神经网络作为控制器,以乘客平均候梯时间最短为控制目标设计出电梯群控系统的控制方案.该控制方法不需要过多的专家知识及学习样本,... 提出一种新的智能优化调度方法,将再励学习控制运用到电梯群控系统中,采用基于交通模式识别的小脑模型神经网络作为控制器,以乘客平均候梯时间最短为控制目标设计出电梯群控系统的控制方案.该控制方法不需要过多的专家知识及学习样本,可以实现在线学习并具有较强的自适应能力,提高了系统的效率并且使系统性能得到优化.以层间交通模式为例对系统进行仿真,结果证明了该方法的可行性及有效性. 展开更多
关键词 电梯群控 模式识别 再励学习控制 小脑模型神经网络
下载PDF
基于T-S模糊再励学习的稳定双足步态生成算法 被引量:2
16
作者 胡凌云 孙增圻 《机器人》 EI CSCD 北大核心 2004年第5期461-466,共6页
提出了一种基于T S模糊再励学习的稳定双足步态生成算法 .将再励学习引入T S模糊神经网学习增益参数 ,从而采用较少的模糊规则充分逼近了由ZMP曲线到髋关节轨迹的非线性变化关系 ,并将连续空间的多变量变化转换为一维独立动作增益的并... 提出了一种基于T S模糊再励学习的稳定双足步态生成算法 .将再励学习引入T S模糊神经网学习增益参数 ,从而采用较少的模糊规则充分逼近了由ZMP曲线到髋关节轨迹的非线性变化关系 ,并将连续空间的多变量变化转换为一维独立动作增益的并行搜索 .仿真结果和双足机器人Luna的实验数据都验证了算法的可行性 . 展开更多
关键词 双足机器人 T-S模糊再励学习网络 稳定
下载PDF
动态联盟收益值的再励学习 被引量:1
17
作者 童向荣 张伟 《计算机工程与应用》 CSCD 北大核心 2006年第6期85-87,共3页
联盟形成的收益值是模糊和不确定的,难于计算,而联盟收益值在成员变化的情况下的计算就更为复杂。Lerman等人实现了动态联盟Agent进出联盟的管理方法,Chalkiadakis则研究了不确定情况下联盟的再励学习,但没有涉及联盟成员变化情况下的... 联盟形成的收益值是模糊和不确定的,难于计算,而联盟收益值在成员变化的情况下的计算就更为复杂。Lerman等人实现了动态联盟Agent进出联盟的管理方法,Chalkiadakis则研究了不确定情况下联盟的再励学习,但没有涉及联盟成员变化情况下的收益值动态性。论文定义了带折扣率的估计核,给出一种再励学习算法来计算联盟成员变化后的收益值,深化了Chalkiadakis的工作。实验结果验证了该方法的可行性和正确性。 展开更多
关键词 多AGENT系统 动态联盟形成 再励学习
下载PDF
基于Agent系统再励学习的应用
18
作者 郭颂 李朝纯 杨开英 《计算机应用与软件》 CSCD 北大核心 2005年第4期67-69,共3页
本文介绍了Agent组织规则及再励学习的理论,给出了一种基于再励学习的Agent组织规则生成机制和相应的算法。从而得出结论Agent组织规则在求解过程中起着重要的作用,可以有效地减少冲突,提高求解效率。
关键词 再励学习 AGENT系统 Agent组织规则 应用 生成机制 求解过程 求解效率 算法
下载PDF
基于Agent的机器人足球赛中的再励学习算法
19
作者 唐勇 陈宝峰 +1 位作者 张大鹏 陈琛 《燕山大学学报》 CAS 2005年第4期324-327,共4页
关于Agent个体的机器学习一直是Agent研究的一个重要方面,本文对再励学习中的学习算法做了简单介绍,然后在一个基于Agent的机器人足球赛平台上将学习算法引入,并进行了对比实验。
关键词 AGENT 再励学习 Q学习
下载PDF
递阶再励学习中Option的自动发现与生成
20
作者 孟江华 朱纪洪 孙增圻 《计算机工程与应用》 CSCD 北大核心 2006年第33期34-37,共4页
Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option。和现有的方法相比具有和任务无关、不需要先验知识等优点;能很好地工作于完全未知的环境中;并且构造出... Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option。和现有的方法相比具有和任务无关、不需要先验知识等优点;能很好地工作于完全未知的环境中;并且构造出的Option,在同一环境下不同任务间可以直接共享。 展开更多
关键词 递阶再励学习 OPTION 探索密度检测
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部