期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于SARSA学习的跳频系统智能抗干扰决策算法
1
作者 陈一波 赵知劲 《现代电子技术》 2023年第1期31-35,共5页
为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界... 为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界的动作选择策略和优先遍历思想应用于SARSA学习,以平衡智能体对状态-动作空间的探索和利用。另外,针对多种干扰并存的电磁环境以及跳频通信系统的跳速、信道划分间隔和跳频序列等可调节参数,设计了相应的系统模型、决策目标、状态-动作空间和奖赏函数。在不同干扰环境下所提算法都优于三种对比算法,表明基于置信度上界的动作选择策略和优先遍历思想的加入较好地协调了探索与利用的矛盾,提升了收敛速度和稳态性能,加强了SARSA学习对干扰环境的适应性。 展开更多
关键词 复杂电磁环境 跳频系统 抗干扰 sarsa学习 置信度上界 优先遍历 状态动作空间 探索与利用
下载PDF
基于模糊神经网络Sarsa学习的多机器人任务分配 被引量:3
2
作者 陈夏冰 刘国栋 《计算机应用与软件》 CSCD 北大核心 2012年第12期203-205,222,共4页
针对动态环境下多机器人任务分配的问题,提出一种基于模糊神经Sarsa学习网络的效用函数模型,将模糊推理系统,神经网络模型与Sarsa学习算法相结合。设计确定了网络的结构、学习算法以及最终效用值的确定步骤。在仿真实验中,利用该模型能... 针对动态环境下多机器人任务分配的问题,提出一种基于模糊神经Sarsa学习网络的效用函数模型,将模糊推理系统,神经网络模型与Sarsa学习算法相结合。设计确定了网络的结构、学习算法以及最终效用值的确定步骤。在仿真实验中,利用该模型能快速收敛实现任务分配,并且能不断优化目标和路径。 展开更多
关键词 任务分配 效用函数 模糊神经网络 sarsa学习
下载PDF
基于SARSA学习的单交叉口配时优化仿真与设计 被引量:3
3
作者 白静静 任安虎 李珊 《国外电子测量技术》 2020年第6期76-80,共5页
现如今我国城市道路网络迅速扩大,城市道路交通拥挤状况加剧。传统的定时控制和感应控制不再适应交通环境的多变性、随机性及不确定性。针对Q学习算法只考虑新的状态下获得的最大奖赏,而不考虑新状态带来的风险,将Sarsa学习应用于单交... 现如今我国城市道路网络迅速扩大,城市道路交通拥挤状况加剧。传统的定时控制和感应控制不再适应交通环境的多变性、随机性及不确定性。针对Q学习算法只考虑新的状态下获得的最大奖赏,而不考虑新状态带来的风险,将Sarsa学习应用于单交叉口配时优化方法中,Sarsa学习在目标选择策略中有着既考虑最优值,又考虑探索作用值的优点。以单交叉口平均延误最小为优化目标,确定最优策略,并在VisSim中进行仿真,在仿真检验阶段1 000个步长后,Sarsa学习的车辆平均延误相比于Q学习减少了1.277s。结果表明Sarsa学习算法在配时优化延误指标上优于Q学习。 展开更多
关键词 交叉口控制 sarsa学习 配时优化 强化学习
下载PDF
基于Sarsa学习的基站休眠策略研究 被引量:2
4
作者 杨海 吴静 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2020年第4期536-543,共8页
在异构Macro-femto蜂窝网络中,随着日益增长的用户数量使得基站能耗问题变得更加严峻,提升整个移动系统能效的有效方式就是进行基站休眠。根据无模型理论提出一种基于Sarsa学习的动态基站休眠算法,算法通过基站学习环境中的用户流量,制... 在异构Macro-femto蜂窝网络中,随着日益增长的用户数量使得基站能耗问题变得更加严峻,提升整个移动系统能效的有效方式就是进行基站休眠。根据无模型理论提出一种基于Sarsa学习的动态基站休眠算法,算法通过基站学习环境中的用户流量,制定合理的休眠机制。仿真结果表明,提出的基于Sarsa学习的基站休眠算法能够有效提升系统能效。 展开更多
关键词 异构蜂窝网络 系统能效 基站休眠 sarsa学习
下载PDF
一种用于机器人电池电量预测的Sarsa强化学习混合集成方法 被引量:1
5
作者 彭飞 刘辉 郑力 《Journal of Central South University》 SCIE EI CAS CSCD 2023年第11期3867-3880,共14页
建设数据高效互联的轨道交通车间已成为当前轨道交通装备行业转型发展的必然趋势。越来越多样化的移动运输机器人设备成为智能工厂数字化转型过程中的关键。准确预测机器人的电池电量可以指导控制中心提前采取科学合理的指令,确保物流... 建设数据高效互联的轨道交通车间已成为当前轨道交通装备行业转型发展的必然趋势。越来越多样化的移动运输机器人设备成为智能工厂数字化转型过程中的关键。准确预测机器人的电池电量可以指导控制中心提前采取科学合理的指令,确保物流运输链高效稳定运行。在本研究中,我们提出了一种基于状态-动作-奖励-状态-动作(Sarsa)强化学习算法的多学习器混合集成方法。首先,采用最大重叠离散小波变换(MODWT)对所测量的机器人原始电源电压数据进行预处理,可以显著降低时间序列数据的非平稳性和波动性。其次,利用门控循环单元(GRU)、深度置信网络(DBN)和长短期记忆(LSTM)对分解后得到的子序列进行预测建模。最后,使用Sarsa强化学习集成策略对上述三个基础预测器进行加权组合。所提出的Sarsa混合集成模型的性能在三个真实移动机器人功率数据集上得到验证。实验结果表明,运输机器人电池动力混合预测模型在鲁棒性、准确性和适应性方面具有竞争力。 展开更多
关键词 机器人电源管理 运输机器人 时间序列预测 深度学习 sarsa强化学习 集成模型
下载PDF
一种基于状态聚类的SARSA(λ)强化学习算法 被引量:3
6
作者 李春贵 吴沧浦 刘永信 《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法... 为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数. 展开更多
关键词 sarsa(λ)强化学习算法 状态聚类 强化学习 函数近似 sarsa学习 人工神经网络
下载PDF
一种集成规划的SARSA(λ)强化学习算法 被引量:2
7
作者 李春贵 吴沧浦 刘永信 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第3期325-327,共3页
提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出... 提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出了在学习和规划之间的量化折中参考 .实验结果表明 ,本算法比单纯的无模型学习SARSA(λ) 展开更多
关键词 强化学习 MARKOV决策过程 sarsa学习 规划
下载PDF
改进的模糊Sarsa学习
8
作者 陈学松 杨宜民 《北京邮电大学学报》 EI CAS CSCD 北大核心 2011年第2期31-34,44,共5页
为了解决模糊Sarsa学习(FSL)无法在线自适应调节学习因子和不能处理学习过程中探索与利用的平衡问题,提出了一种改进的模糊Sarsa学习(IFSL)算法.在FSL基础上,引入自适应学习率产生器来在线调节学习因子,增加模糊平衡器控制探索和利用的... 为了解决模糊Sarsa学习(FSL)无法在线自适应调节学习因子和不能处理学习过程中探索与利用的平衡问题,提出了一种改进的模糊Sarsa学习(IFSL)算法.在FSL基础上,引入自适应学习率产生器来在线调节学习因子,增加模糊平衡器控制探索和利用的程度.给出了IFSL的结构框图,证明了IFSL中可调节权向量具有平衡不动点.仿真结果表明,与FSL相比,IFSL能加快系统的学习收敛速度,具有较好的学习性能. 展开更多
关键词 强化学习 模糊控制 模糊sarsa学习 探索 利用
原文传递
基于蚁群优化的模糊Sarsa学习算法
9
作者 陈学松 杨宜民 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S2期340-343,共4页
提出了一种基于蚁群优化的模糊Sarsa学习(ACO-FSL)算法,在该算法中,首先把模糊系统按照模糊规则进行划分,对于每条模糊规则,有若干个候选动作可被选择,动作选择的概率依赖于实时的值函数;然后在每个动作选择的同时根据蚁群优化的思想定... 提出了一种基于蚁群优化的模糊Sarsa学习(ACO-FSL)算法,在该算法中,首先把模糊系统按照模糊规则进行划分,对于每条模糊规则,有若干个候选动作可被选择,动作选择的概率依赖于实时的值函数;然后在每个动作选择的同时根据蚁群优化的思想定义变化的学习率,这样既缩小了搜索空间,又提高了学习效率.整个模糊推理模块被看作是蚂蚁觅食的过程,利用蚁群算法优良的随机搜索性能求解该组合优化问题.给出了该算法的设计方法和流程.小车爬山问题的仿真实验结果表明:提出的ACO-FSL算法相比FSL具有较好的学习性能. 展开更多
关键词 强化学习 模糊强化学习 模糊sarsa学习 蚁群优化 学习 小车爬山问题
原文传递
一个因素化SARSA(λ)激励学习算法 被引量:8
10
作者 陈焕文 谢建平 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问... 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . 展开更多
关键词 激励学习 状态聚类 MDPs sarsa(λ)学习
下载PDF
多步截断SARSA强化学习算法 被引量:5
11
作者 李春贵 林海涛 刘永信 《广西工学院学报》 CAS 2002年第1期1-4,共4页
提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)
关键词 强化学习 MARKOV决策过程 Q学习 SQRSA学习 机器学习 多步截断sarsa强化学习算法
下载PDF
一种状态集结因子化SARSA(λ)强化学习算法 被引量:1
12
作者 李春贵 刘永信 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第6期675-678,共4页
提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验... 提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验知识 。 展开更多
关键词 强化学习 状态集结 MDPs Q(λ)学习 sarsa(λ)学习 机器学习 因子化 Bellman余留数
下载PDF
移动机器人模糊Sarsa(λ)学习导航研究
13
作者 陈卫东 关永贞 +1 位作者 朱奇光 赵成龙 《小型微型计算机系统》 CSCD 北大核心 2013年第11期2599-2602,共4页
针对复杂未知环境下难以获得完善的模糊导航控制规则以及传统的强化学习算法不能解决连续状态空间和连续动作空间的学习问题,提出了一种模糊强化学习算法.通过将模糊推理系统和强化学习算法相结合,设计了一种模糊强化学习系统,一方面,... 针对复杂未知环境下难以获得完善的模糊导航控制规则以及传统的强化学习算法不能解决连续状态空间和连续动作空间的学习问题,提出了一种模糊强化学习算法.通过将模糊推理系统和强化学习算法相结合,设计了一种模糊强化学习系统,一方面,在缺乏专家经验的情况下,利用强化学习中的Sarsa(λ)学习算法来获取模糊逻辑控制器的模糊规则库,另一方面,利用模糊推理系统所具有的广泛逼近性,使机器人在学习时可以遍历到每一个状态动作对.同时将有限的专家经验引入到模糊推理系统,使Sarsa(λ)学习具备一定的先验知识,从而加快学习速度.仿真实验表明,该方法具有较好的实时性和鲁棒性,能够有效解决移动机器人在未知复杂环境中的导航问题. 展开更多
关键词 sarsa(λ)学习 模糊强化学习算法 模糊推理系统 机器人导航
下载PDF
基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略
14
作者 刘云龙 吉国力 《北京工业大学学报》 EI CAS CSCD 北大核心 2012年第9期1348-1352,共5页
针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)... 针对RoboCup仿真组足球比赛场上状态复杂多变、同时供决策的信息大多为连续变量、智能体利用现有信息通常无法判断当前状态下最优动作的问题,以守门员为例,首先利用CMAC神经网络对连续状态空间泛化,然后在泛化后的状态上,采用Sarsa(λ)学习算法获取守门员的最优策略.通过在RoboCup仿真平台上进行仿真,实验结果表明,采用基于CMAC的Sarsa(λ)学习算法的守门员,经过一定时间的学习后,防守时间显著增长,防守效果明显优于其他算法,验证了本文所提方案的有效性. 展开更多
关键词 RoboCup仿真组足球比赛 CMAC神经网络 泛化 sarsa(λ)学习算法 最优策略
下载PDF
基于节点生长k-均值聚类算法的强化学习方法 被引量:13
15
作者 陈宗海 文锋 +1 位作者 聂建斌 吴晓曙 《计算机研究与发展》 EI CSCD 北大核心 2006年第4期661-666,共6页
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情... 处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略. 展开更多
关键词 强化学习 K-均值聚类算法 sarsa学习 连续状态表示
下载PDF
连续状态自适应离散化基于K-均值聚类的强化学习方法 被引量:7
16
作者 文锋 陈宗海 +1 位作者 卓睿 周光明 《控制与决策》 EI CSCD 北大核心 2006年第2期143-147,共5页
使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算... 使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CM AC网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点. 展开更多
关键词 强化学习 K-均值聚类算法 sarsa学习 连续状态 自适应离散化
下载PDF
求解部分可观测马氏决策过程的强化学习算法 被引量:5
17
作者 王学宁 贺汉根 徐昕 《控制与决策》 EI CSCD 北大核心 2004年第11期1263-1266,共4页
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来... 针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高. 展开更多
关键词 强化学习 部分可观测Markov决策过程 sarsa学习 无记忆策略
下载PDF
一种新的基于蚁群优化的模糊强化学习算法 被引量:2
18
作者 谢光强 陈学松 《计算机应用研究》 CSCD 北大核心 2011年第4期1266-1268,1271,共4页
模糊Sarsa学习(FSL)是基于Sarsa学习而提出的一种模糊强化学习算法,它是一种通过在线策略来逼近动作值函数的算法,其每条模糊规则中,动作的选择是按照Softmax公式选择下一个动作。对于连续空间的复杂学习任务,FSL不能较好平衡探索和利... 模糊Sarsa学习(FSL)是基于Sarsa学习而提出的一种模糊强化学习算法,它是一种通过在线策略来逼近动作值函数的算法,其每条模糊规则中,动作的选择是按照Softmax公式选择下一个动作。对于连续空间的复杂学习任务,FSL不能较好平衡探索和利用之间的关系,为此提出了一种新的基于蚁群优化的模糊强化学习算法(ACO-FSL),主要工作是把蚁群优化思想与传统的模糊强化学习算法结合起来形成一种新的算法。给出了算法的设计原理、方法和具体步骤,小车爬山问题的仿真实验表明,提出的ACO-FSL算法在学习速度和稳定性上优于FSL算法。 展开更多
关键词 强化学习 模糊sarsa学习 蚁群优化
下载PDF
基于强化学习的无人坦克对战仿真研究 被引量:13
19
作者 徐志雄 曹雷 陈希亮 《计算机工程与应用》 CSCD 北大核心 2018年第8期166-171,共6页
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用"同策略"迭代的Sarsa学习算法,代替传统的"异策略"Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分... 对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用"同策略"迭代的Sarsa学习算法,代替传统的"异策略"Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。 展开更多
关键词 多动机引导 Q学习 sarsa学习 无人坦克 对战仿真
下载PDF
基于Sarsa算法的无人直升机悬停控制 被引量:1
20
作者 蔡文澜 王俊生 +1 位作者 税海涛 马宏绪 《兵工自动化》 2007年第7期54-56,共3页
无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网... 无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网络,权值学习采用直接梯度下降的近似梯度迭代算法,用ε-Greed策略进行行为选择。 展开更多
关键词 无人直升机 悬停控制 sarsa增强学习算法 多层前馈神经网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部