期刊文献+
共找到82篇文章
< 1 2 5 >
每页显示 20 50 100
基于改进SARSA算法的航空器滑行路径规划
1
作者 张云景 王昊 +1 位作者 王帅 孟斌 《郑州航空工业管理学院学报》 2024年第1期43-48,共6页
航空器滑行是机场运行中最重要的一环,缩短滑行时间也是提高机场运行效率的主要手段。为了改变仅依靠人工进行机坪管制的现状,文章针对航空器滑行的特殊环境,利用改进SARSA算法对航空器的滑行路径进行规划,并通过仿真验证了该算法在规... 航空器滑行是机场运行中最重要的一环,缩短滑行时间也是提高机场运行效率的主要手段。为了改变仅依靠人工进行机坪管制的现状,文章针对航空器滑行的特殊环境,利用改进SARSA算法对航空器的滑行路径进行规划,并通过仿真验证了该算法在规划路径长度和迭代次数方面优于传统SARSA算法,进而更好地为管制员决策提供辅助参考。 展开更多
关键词 强化学习 路径规划 模拟退火策略 sarsa算法
下载PDF
基于Sarsa的动态蜂群算法求解作业车间调度问题 被引量:1
2
作者 张泽华 杨波 +3 位作者 傅广 申晗 李舒玥 马旺 《组合机床与自动化加工技术》 北大核心 2023年第6期188-192,共5页
针对作业车间调度问题,提出了一种基于Sarsa算法的动态人工蜂群算法。首先,提出了探索因子和开发因子两个参数,分别量化人工蜂群算法的探索能力和开发能力,并在此基础上改进了它的解的更新公式;其次,根据种群的状态,实时地使用Sarsa自... 针对作业车间调度问题,提出了一种基于Sarsa算法的动态人工蜂群算法。首先,提出了探索因子和开发因子两个参数,分别量化人工蜂群算法的探索能力和开发能力,并在此基础上改进了它的解的更新公式;其次,根据种群的状态,实时地使用Sarsa自适应地调整探索因子和开发因子的值,使得人工蜂群算法可以在需要探索时探索新的解,需要开发时,开发现有的解,从而实现探索和开发之间的动态平衡;最后,使用11个不同规模的作业车间调度问题来验证所提算法的性能。通过对标准实例求解并与其它论文结果对比,证明了该改进算法的高效性。 展开更多
关键词 作业车间调度 人工蜂群算法 sarsa
下载PDF
基于SARSA学习的跳频系统智能抗干扰决策算法
3
作者 陈一波 赵知劲 《现代电子技术》 2023年第1期31-35,共5页
为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界... 为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界的动作选择策略和优先遍历思想应用于SARSA学习,以平衡智能体对状态-动作空间的探索和利用。另外,针对多种干扰并存的电磁环境以及跳频通信系统的跳速、信道划分间隔和跳频序列等可调节参数,设计了相应的系统模型、决策目标、状态-动作空间和奖赏函数。在不同干扰环境下所提算法都优于三种对比算法,表明基于置信度上界的动作选择策略和优先遍历思想的加入较好地协调了探索与利用的矛盾,提升了收敛速度和稳态性能,加强了SARSA学习对干扰环境的适应性。 展开更多
关键词 复杂电磁环境 跳频系统 抗干扰 sarsa学习 置信度上界 优先遍历 状态动作空间 探索与利用
下载PDF
一种用于机器人电池电量预测的Sarsa强化学习混合集成方法
4
作者 彭飞 刘辉 郑力 《Journal of Central South University》 SCIE EI CAS CSCD 2023年第11期3867-3880,共14页
建设数据高效互联的轨道交通车间已成为当前轨道交通装备行业转型发展的必然趋势。越来越多样化的移动运输机器人设备成为智能工厂数字化转型过程中的关键。准确预测机器人的电池电量可以指导控制中心提前采取科学合理的指令,确保物流... 建设数据高效互联的轨道交通车间已成为当前轨道交通装备行业转型发展的必然趋势。越来越多样化的移动运输机器人设备成为智能工厂数字化转型过程中的关键。准确预测机器人的电池电量可以指导控制中心提前采取科学合理的指令,确保物流运输链高效稳定运行。在本研究中,我们提出了一种基于状态-动作-奖励-状态-动作(Sarsa)强化学习算法的多学习器混合集成方法。首先,采用最大重叠离散小波变换(MODWT)对所测量的机器人原始电源电压数据进行预处理,可以显著降低时间序列数据的非平稳性和波动性。其次,利用门控循环单元(GRU)、深度置信网络(DBN)和长短期记忆(LSTM)对分解后得到的子序列进行预测建模。最后,使用Sarsa强化学习集成策略对上述三个基础预测器进行加权组合。所提出的Sarsa混合集成模型的性能在三个真实移动机器人功率数据集上得到验证。实验结果表明,运输机器人电池动力混合预测模型在鲁棒性、准确性和适应性方面具有竞争力。 展开更多
关键词 机器人电源管理 运输机器人 时间序列预测 深度学习 sarsa强化学习 集成模型
下载PDF
基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法 被引量:5
5
作者 肖飞 刘全 +2 位作者 傅启明 孙洪坤 高龙 《通信学报》 EI CSCD 北大核心 2013年第1期77-88,共12页
针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基... 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。 展开更多
关键词 强化学习 sarsa(λ) 梯度下降 势函数 塑造奖赏
下载PDF
一个因素化SARSA(λ)激励学习算法 被引量:8
6
作者 陈焕文 谢建平 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问... 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . 展开更多
关键词 激励学习 状态聚类 MDPs sarsa(λ)学习
下载PDF
一种最大集合期望损失的多目标Sarsa(λ)算法 被引量:3
7
作者 刘全 李瑾 +2 位作者 傅启明 崔志明 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2013年第8期1469-1473,共5页
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练... 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 展开更多
关键词 多目标 自适应sarsa(λ) 最大集合期望损失 强化学习 机器人足球
下载PDF
在策略SARSA算法在互联电网CPS最优控制中的应用 被引量:15
8
作者 余涛 张水平 《电力系统保护与控制》 EI CSCD 北大核心 2013年第1期211-216,共6页
CPS标准下的互联电网的自动发电控制(AGC)系统是一个典型的不确定随机系统,提出一种新型应用于AGC系统的随机最优控制策略——基于SARSA算法的互联电网CPS最优控制策略。SARSA算法更多地考虑控制策略动作的花费,倾向于避开进入随机系统... CPS标准下的互联电网的自动发电控制(AGC)系统是一个典型的不确定随机系统,提出一种新型应用于AGC系统的随机最优控制策略——基于SARSA算法的互联电网CPS最优控制策略。SARSA算法更多地考虑控制策略动作的花费,倾向于避开进入随机系统中搜索一些危险的状态,相对于离策略(off-policy)的Q学习算法,在策略(on-policy)SARSA算法的学习试错过程中对受控系统影响更小。仿真结果表明,基于SARSA算法的CPS控制器较Q学习算法有更好的鲁棒性和适应性,能够获得更佳的CPS指标。 展开更多
关键词 随机控制 自动发电控制 CPS标准 sarsa算法 强化学习
下载PDF
一种基于状态聚类的SARSA(λ)强化学习算法 被引量:3
9
作者 李春贵 吴沧浦 刘永信 《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法... 为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数. 展开更多
关键词 sarsa(λ)强化学习算法 状态聚类 强化学习 函数近似 sarsa学习 人工神经网络
下载PDF
基于5要素试错更新算法SARSA(λ)的自动发电控制 被引量:2
10
作者 余涛 张水平 《控制理论与应用》 EI CAS CSCD 北大核心 2013年第10期1246-1251,共6页
本文提出了一种基于5要素试错更新算法SARSA(λ)强化学习的随机最优自动发电控制方法.该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略.以控制性能标准(control performance standards,CPS)和区域控制偏差(areal con... 本文提出了一种基于5要素试错更新算法SARSA(λ)强化学习的随机最优自动发电控制方法.该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略.以控制性能标准(control performance standards,CPS)和区域控制偏差(areal control error,ACE)瞬时滚动值为基础设计了即时奖励函数,有效提高了该方法的收敛速度和控制效果,并在算法中融入了资格迹以解决二次调频过程的延时问题.本文所提出的控制方法在进行状态空间搜索时,能有效摆脱避免搜索较大扰动状态,以此获得更佳的控制效果.标准两区域和南方电网仿真模型研究表明,本算法能给系统提供更加安全的控制策略,具有比Q(λ)算法更好的控制性能,有效提高CPS考核的合格率. 展开更多
关键词 sarsa(λ)算法 自动发电控制 强化学习 控制性能标准(CPS)
下载PDF
多步截断SARSA强化学习算法 被引量:5
11
作者 李春贵 林海涛 刘永信 《广西工学院学报》 CAS 2002年第1期1-4,共4页
提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)
关键词 强化学习 MARKOV决策过程 Q学习 SQRSA学习 机器学习 多步截断sarsa强化学习算法
下载PDF
一种集成规划的SARSA(λ)强化学习算法 被引量:2
12
作者 李春贵 吴沧浦 刘永信 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第3期325-327,共3页
提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出... 提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出了在学习和规划之间的量化折中参考 .实验结果表明 ,本算法比单纯的无模型学习SARSA(λ) 展开更多
关键词 强化学习 MARKOV决策过程 sarsa学习 规划
下载PDF
基于SARSA(λ)算法的单路口交通信号学习控制 被引量:3
13
作者 李春贵 阳树洪 +1 位作者 王萌 张增芳 《广西工学院学报》 CAS 2008年第2期10-14,共5页
针对复杂的、难以建模的城市交通系统,将多步强化学习算法SARSA(λ)应用于交通信号控制,根据实时的交通状态信息动态进行决策,自动适应环境以便取得更好的控制效果。由于问题状态空间太大而难以直接存储和表示,采用径向基函数神经网络... 针对复杂的、难以建模的城市交通系统,将多步强化学习算法SARSA(λ)应用于交通信号控制,根据实时的交通状态信息动态进行决策,自动适应环境以便取得更好的控制效果。由于问题状态空间太大而难以直接存储和表示,采用径向基函数神经网络进行值函数近似,通过训练自适应非线性处理单元,可达到较好的近似表示效果,解决了单个十字交叉路口的交通信号控制问题。对该方法进行仿真实验,结果表明其控制效果明显优于传统的固定配时控制策略。 展开更多
关键词 sarsa算法 值函数近似 径向基函数神经网络 交通信号 学习控制
下载PDF
基于量子粒子群和SARSA算法的蜂窝网络信道分配 被引量:4
14
作者 柴旭清 孙丽娜 《计算机测量与控制》 2015年第10期3555-3557,共3页
为了对蜂窝网络的信道进行在线、实时和动态的分配,设计了一种基于量子粒子群算法和SARSA算法的蜂窝网络信道分配方法;采用分配方案表示量子粒子的位置,通过粒子群在粒子空间中不断寻优,将寻求的最优粒子位置作为信道分配方案的初始解;... 为了对蜂窝网络的信道进行在线、实时和动态的分配,设计了一种基于量子粒子群算法和SARSA算法的蜂窝网络信道分配方法;采用分配方案表示量子粒子的位置,通过粒子群在粒子空间中不断寻优,将寻求的最优粒子位置作为信道分配方案的初始解;在此基础上,根据得到的初始解的目标值来计算各状态动作对处的初始Q值,在此基础上,通过加入资格迹的SARSA(λ)算法和ε—greedy策略得到改进的SARSA(λ)算法,执行算法直到各状态动作对的Q值不发生变化为止,此时最终解为信道分配方案;采用具有30个小区的移动蜂窝网络进行实验,仿真实验结果表明文中方法能实现蜂窝通信网络中信道的在线分配,是一种有效的信道分配方法。 展开更多
关键词 信道分配 蜂窝网络 sarsa算法 收敛 粒子群
下载PDF
一种状态集结因子化SARSA(λ)强化学习算法 被引量:1
15
作者 李春贵 刘永信 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第6期675-678,共4页
提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验... 提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验知识 。 展开更多
关键词 强化学习 状态集结 MDPs Q(λ)学习 sarsa(λ)学习 机器学习 因子化 Bellman余留数
下载PDF
基于SARSA算法的水库长期随机优化调度研究 被引量:11
16
作者 李文武 张雪映 +1 位作者 Daniel Eliote Mbanze 吴巍 《水电能源科学》 北大核心 2018年第9期72-75,共4页
针对水库长期随机调度的维数灾问题,在描述来水随机过程的基础上,提出基于强化学习理论的水库长期随机优化调度模型。采用机器学习中有模型的SARSA算法,且考虑入库随机变量的马尔可夫特性,通过贪婪决策与近似值迭代,调整学习参数,求解... 针对水库长期随机调度的维数灾问题,在描述来水随机过程的基础上,提出基于强化学习理论的水库长期随机优化调度模型。采用机器学习中有模型的SARSA算法,且考虑入库随机变量的马尔可夫特性,通过贪婪决策与近似值迭代,调整学习参数,求解出近似最优决策序列。实例分析表明,对比随机动态规划(SDP)方法,SARSA算法在获得高质量解的同时,计算时间约减少41%,该算法高效求解能力与较少计算时长为水库长期随机调度问题提供了一种新的求解思路。 展开更多
关键词 水库调度 随机动态规划 强化学习 值迭代 sarsa
下载PDF
基于Sarsa算法的无人直升机悬停控制 被引量:1
17
作者 蔡文澜 王俊生 +1 位作者 税海涛 马宏绪 《兵工自动化》 2007年第7期54-56,共3页
无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网... 无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网络,权值学习采用直接梯度下降的近似梯度迭代算法,用ε-Greed策略进行行为选择。 展开更多
关键词 无人直升机 悬停控制 sarsa增强学习算法 多层前馈神经网络
下载PDF
基于SARSA算法的风电——抽蓄联合系统日随机优化研究 被引量:6
18
作者 李文武 郑凯新 +1 位作者 刘江鹏 贺中豪 《水电能源科学》 北大核心 2020年第11期72-76,共5页
针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方... 针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方最小为目标函数的日随机优化模型;最后说明利用SARSA算法求解该问题的步骤。算例应用结果表明,利用SARSA算法求解该问题需迭代一定次数才收敛,且算法的学习率随迭代次数增加而减小时可加快算法收敛速度;将SARSA算法与随机动态规划算法相比,在优化结果接近的情况下,SARSA算法计算时间减少约35%,该算法为解决随机多能互补问题提供了新思路。 展开更多
关键词 风蓄随机优化调度 强化学习 sarsa算法 学习率
下载PDF
基于SARSA算法的水声通信自适应调制 被引量:4
19
作者 王安义 李萍 张育芝 《科学技术与工程》 北大核心 2020年第16期6505-6509,共5页
水声信道复杂多变,自适应调制系统中反馈信息存在较大的时延,实际信道状态与接收到的反馈信息无法匹配,带来反馈信道状态信息过时问题,发送端不能准确做出自适应决策进而导致传输误码高及吞吐量低等问题。针对该问题,利用强化学习中的SA... 水声信道复杂多变,自适应调制系统中反馈信息存在较大的时延,实际信道状态与接收到的反馈信息无法匹配,带来反馈信道状态信息过时问题,发送端不能准确做出自适应决策进而导致传输误码高及吞吐量低等问题。针对该问题,利用强化学习中的SARSA算法学习信道的变化并进行行为策略的选择,根据信道的变化,择优选出最佳的调制方式,以改善系统的传输误码和通信吞吐量。对比固定调制方式和直接反馈情况下的系统的误码率和吞吐量,结果表明,经强化学习后的系统误码率和吞吐量均优于其他两种方式,可见,强化学习算法在时变水声信道自适应调制中改善传输误码和吞吐量的问题上是有效可行的。 展开更多
关键词 水声通信 自适应调制 强化学习 sarsa算法
下载PDF
基于改进SARSA(λ)移动机器人路径规划 被引量:2
20
作者 宋宇 王志明 《长春工业大学学报》 CAS 2019年第1期55-59,共5页
在机器人选择下一点坐标时,分别计算周围格子到达概率以及所受合力。记录机器人每轮到达终点所经路径总距离,将全局最优距离值与机器人到达终点所得奖励值相关,并进行加权更新Q值。仿真结果表明,采用该算法机器人到达目标点用时减少了8... 在机器人选择下一点坐标时,分别计算周围格子到达概率以及所受合力。记录机器人每轮到达终点所经路径总距离,将全局最优距离值与机器人到达终点所得奖励值相关,并进行加权更新Q值。仿真结果表明,采用该算法机器人到达目标点用时减少了85%,路径总长度平均缩短22%。 展开更多
关键词 路径规划 强化学习 sarsa(λ) 人工势场法
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部