期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于多步回溯Q学习的自动发电控制指令动态优化分配算法 被引量:14
1
作者 余涛 王宇名 +2 位作者 甄卫国 叶文加 刘前进 《控制理论与应用》 EI CAS CSCD 北大核心 2011年第1期58-64,共7页
单步Q学习在火电占优、机组时延较大的自动发电控制(AGC)功率指令动态优化分配中的应用表现出收敛速度慢等不足而影响最优策略的获取.具有多步预见能力的多步回溯Q学习(Q(λ))显式利用资格迹进行高效回溯操作,能够有效解决火电机组大时... 单步Q学习在火电占优、机组时延较大的自动发电控制(AGC)功率指令动态优化分配中的应用表现出收敛速度慢等不足而影响最优策略的获取.具有多步预见能力的多步回溯Q学习(Q(λ))显式利用资格迹进行高效回溯操作,能够有效解决火电机组大时滞环节带来的延时回报问题,算法平均收敛时间较Q学习缩短50%以上.算法奖励函数引入调节费用一项,形成多目标动态最优控制.两区域模型及南方电网模型仿真研究分析显示,Q(λ)算法在随机、大负荷扰动的复杂系统环境中有效提高系统控制性能标准(CPS)控制品质和适应性,并且在保证CPS合格率的前提下,使AGC调节费用下降超过5%. 展开更多
关键词 q(λ)学习 自动发电控制 控制性能标准 随机最优 调节费用
下载PDF
基于多步回溯Q(λ)学习的互联电网随机最优CPS控制 被引量:14
2
作者 余涛 周斌 陈家荣 《电工技术学报》 EI CSCD 北大核心 2011年第6期179-186,共8页
针对非马尔可夫环境下火电占优的互联电网AGC控制策略,引入随机最优控制中Q(λ)学习的"后向估计"原理,可有效解决火电机组大时滞环节带来的延时回报问题。本文以CPS1/CPS2滚动平均值为状态输入,将CPS评价指标与松弛目标根据... 针对非马尔可夫环境下火电占优的互联电网AGC控制策略,引入随机最优控制中Q(λ)学习的"后向估计"原理,可有效解决火电机组大时滞环节带来的延时回报问题。本文以CPS1/CPS2滚动平均值为状态输入,将CPS评价指标与松弛目标根据线性加权原则转化为MDP奖励函数,从长期的角度提出一种在线反馈学习结构的随机最优CPS控制。统计性仿真试验表明,所提CPS控制具有较强的适应性和动态性能,在保证CPS合格率基础上能有效减少调度端的平均发令次数和反调次数。同时,该策略提供了一种可通过修正松弛因子在线调整AGC系统的"松弛度",可降低发电成本及机组磨损,从而实现CPS松弛控制。 展开更多
关键词 自动发电控制 控制性能标准 多步q(λ)学习 非马尔可夫环境 随机最优控制
下载PDF
基于分布式多步回溯Q(λ)学习的复杂电网最优潮流算法 被引量:11
3
作者 余涛 刘靖 胡细兵 《电工技术学报》 EI CSCD 北大核心 2012年第4期185-192,共8页
针对传统最优潮流算法对复杂多目标函数的不适应性以及常规算法难以满足大规模电网计算实时性的要求,本文中提出一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无须对最优潮流数学模型进行辅助处理,不依赖于对象模型... 针对传统最优潮流算法对复杂多目标函数的不适应性以及常规算法难以满足大规模电网计算实时性的要求,本文中提出一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无须对最优潮流数学模型进行辅助处理,不依赖于对象模型,其内部各Agent使用标准的多步Q(λ)算法独立承担各分区子系统的学习任务,通过统一协作从而形成整体意义上的最优,并在IEEE 118节点等标准算例中进行了验证,取得了良好的效果,为解决复杂电网多目标最优潮流问题提供了一种新的可行、有效的方法。 展开更多
关键词 最优潮流 q(λ)学习 多目标优化 分布式强化学习
下载PDF
基于多步回溯Q(λ)学习算法的多目标最优潮流计算 被引量:7
4
作者 余涛 胡细兵 刘靖 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第10期139-145,共7页
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成... 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 展开更多
关键词 电力系统 最优潮流 q(λ)学习算法 多目标优化 强化学习
下载PDF
基于最小二乘的Q(λ)强化学习算法
5
作者 陈圣磊 李卫红 姚娟 《计算机工程与应用》 CSCD 北大核心 2008年第34期47-50,共4页
通过分析经典的Q(λ)学习算法所存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态-动作对值函数的最小二乘逼近模型,推导了该逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了快速而实用的... 通过分析经典的Q(λ)学习算法所存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态-动作对值函数的最小二乘逼近模型,推导了该逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了快速而实用的最小二乘Q(λ)算法及改进的递推算法。倒立摆实验表明,该算法可以提高经验利用率,有效加快收敛速度。 展开更多
关键词 强化学习 q(λ)学习 函数逼近 最小二乘 倒立摆
下载PDF
基于多步回溯Q(λ)学习的电网多目标最优碳流算法 被引量:15
6
作者 张孝顺 郑理民 余涛 《电力系统自动化》 EI CSCD 北大核心 2014年第17期118-123,共6页
为弥补传统最优潮流计算中缺少对电力网络的碳排放优化控制,文中利用基于潮流计算结果的碳流模型,提出了一种基于半马尔可夫决策过程的Q(λ)学习算法,把潮流问题中的约束、可控变量转换成算法的状态和动作,并以线性加权方式把碳流损耗... 为弥补传统最优潮流计算中缺少对电力网络的碳排放优化控制,文中利用基于潮流计算结果的碳流模型,提出了一种基于半马尔可夫决策过程的Q(λ)学习算法,把潮流问题中的约束、可控变量转换成算法的状态和动作,并以线性加权方式把碳流损耗、网损和电压稳定分量转化为奖励函数,通过不断试错与迭代来动态寻找最优动作策略。将该算法在IEEE 57节点标准算例中进行了验证,取得了良好效果,为解决电网多目标最优碳流问题提供了一种可行、有效的方法。 展开更多
关键词 q(λ)学习 最优碳流 多目标优化 强化学习
下载PDF
基于启发式Q(λ)学习的铁路绝缘子定位研究 被引量:1
7
作者 付虹 王国志 +2 位作者 柯坚 邓斌 吴文海 《铁道标准设计》 北大核心 2018年第4期151-155,共5页
智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找... 智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找到绝缘子。首先建立铁路绝缘子水冲洗环境模型,接着为解决传统Q(λ)学习算法盲目学习导致收敛速度慢的问题,通过搜索支柱特征调整奖赏函数,设计启发式策略函数并融入Q(λ)学习中,提高算法的学习和收敛速度。最后分别对传统Q(λ)学习算法和启发式Q(λ)学习算法进行Matlab仿真实验,确定最佳参数设置,仿真结果表明启发式Q(λ)算法的正确性和可行性。 展开更多
关键词 电气化铁路 铁路绝缘子 启发式q(λ)学习 定位
下载PDF
基于自加强学习算法的发电商报价策略研究 被引量:17
8
作者 马豫超 蒋传文 +2 位作者 候志俭 Ettore Bompard 王承民 《中国电机工程学报》 EI CSCD 北大核心 2006年第17期12-17,共6页
电力市场中发电商的决策过程和多发电商的相互作用过程是个复杂动态问题,很难用传统的解析方法进行分析计算,这在考虑中长时间段交易时尤为突出,且多代理作用机制是个很好的补充。文中提出了一个能够模拟发电商在市场中进行策略性报价... 电力市场中发电商的决策过程和多发电商的相互作用过程是个复杂动态问题,很难用传统的解析方法进行分析计算,这在考虑中长时间段交易时尤为突出,且多代理作用机制是个很好的补充。文中提出了一个能够模拟发电商在市场中进行策略性报价的中长期交易时间段决策过程模型,对多发电商交互作用导致的市场行为进行了仿真试验。该模型基于自加强Watkins’sQ(λ)学习算法并包含了可能对电力市场运行产生重要影响的网络阻塞因素。该模型可以形成发电商的最优策略以最大化中长期生产效益和可以找到中长期市场平衡点并据此评估市场中长期运行情况。通过在标准IEEE-14节点系统中进行仿真计算表明该模型的有效性和新颖性。 展开更多
关键词 电力市场 最优报价策略 多代理 自加强Watkins's q(λ)学习算法
下载PDF
基于模糊神经网络的强化学习及其在机器人导航中的应用 被引量:13
9
作者 段勇 徐心和 《控制与决策》 EI CSCD 北大核心 2007年第5期525-529,534,共6页
研究基于行为的移动机器人控制方法.将模糊神经网络与强化学习理论相结合,构成模糊强化系统.它既可获取模糊规则的结论部分和模糊隶属度函数参数,也可解决连续状态空间和动作空间的强化学习问题.将残差算法用于神经网络的学习,保证了函... 研究基于行为的移动机器人控制方法.将模糊神经网络与强化学习理论相结合,构成模糊强化系统.它既可获取模糊规则的结论部分和模糊隶属度函数参数,也可解决连续状态空间和动作空间的强化学习问题.将残差算法用于神经网络的学习,保证了函数逼近的快速性和收敛性.将该系统的学习结果作为反应式自主机器人的行为控制器。 展开更多
关键词 强化学习 模糊神经网络 q(λ)学习 机器人导航
下载PDF
基于强化学习的机器人模糊控制系统设计 被引量:5
10
作者 段勇 刘兴刚 徐心和 《系统仿真学报》 EI CAS CSCD 北大核心 2006年第6期1597-1600,共4页
研究了基于强化学习(RL)的模糊逻辑控制器(FLC)设计方法,并将该控制器作为反应式自主移动机器人的控制系统。在缺乏专家知识的情况下,将模糊推理系统(FIS)和强化学习理论相结合构成模糊强化系统,通过强化学习算法获取FLC得模糊规则库,... 研究了基于强化学习(RL)的模糊逻辑控制器(FLC)设计方法,并将该控制器作为反应式自主移动机器人的控制系统。在缺乏专家知识的情况下,将模糊推理系统(FIS)和强化学习理论相结合构成模糊强化系统,通过强化学习算法获取FLC得模糊规则库,从而有效地解决了复杂未知环境的机器人导航问题。实验结果表明,由强化学习设计的模糊控制器的有效性,同时具有较强的适应能力,可以应用于不同的复杂环境。 展开更多
关键词 模糊逻辑控制器 强化学习 q(λ)学习 机器人导航
下载PDF
基于多步回溯Q(λ)的PSS最优控制方法的研究 被引量:4
11
作者 余涛 甄卫国 《电力系统保护与控制》 EI CSCD 北大核心 2011年第3期18-23,28,共7页
电力系统稳定器(PSS)是用来产生能抑制低频电力系统振荡的励磁系统辅助控制信号,具备自学习和参数在线整定能力是未来智能电网PSS控制器的一个发展趋势。提出一种基于多步回溯Q(λ)学习的新颖电力系统稳定器设计方法。利用多步回溯Q(λ... 电力系统稳定器(PSS)是用来产生能抑制低频电力系统振荡的励磁系统辅助控制信号,具备自学习和参数在线整定能力是未来智能电网PSS控制器的一个发展趋势。提出一种基于多步回溯Q(λ)学习的新颖电力系统稳定器设计方法。利用多步回溯Q(λ)控制器代替整个传统PSS作为励磁附加控制,并与传统PSS和Q学习控制器进行比较。仿真研究显示,引入基于多步回溯Q(λ)学习的PSS控制后显著增强了整个系统的鲁棒性,有效提高了系统抑制低频电力系统振荡的能力,较好地解决了Q学习控制器收敛速度慢的问题。 展开更多
关键词 电力系统稳定器(PSS) 马尔可夫策略(MDP) 强化学习 q学习 多步回溯q(λ)学习
下载PDF
基于矢量量化的强化学习及其在机器人行为学习中的应用 被引量:1
12
作者 段勇 伊婧 +1 位作者 张永赫 徐心和 《高技术通讯》 CAS CSCD 北大核心 2011年第2期179-184,共6页
针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学... 针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学习的状态空间分割问题,并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射(SOFM)神经网络用于矢量量化,以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性,实验表明,此方法能够较好地解决复杂未知环境的机器人导航问题。 展开更多
关键词 强化学习(RL) 矢量量化(Vq) 码书 q(λ)学习 自组织特征映射
下载PDF
一种状态集结因子化SARSA(λ)强化学习算法 被引量:1
13
作者 李春贵 刘永信 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第6期675-678,共4页
提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验... 提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验知识 。 展开更多
关键词 强化学习 状态集结 MDPs q(λ)学习 SARSA(λ)学习 机器学习 因子化 Bellman余留数
下载PDF
基于Q(λ)-learning的移动机器人路径规划改进探索方法 被引量:4
14
作者 王健 赵亚川 +1 位作者 赵忠英 张平陆 《自动化与仪表》 2019年第11期39-41,67,共4页
强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法... 强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法,以探索成功率判断机器人对环境的熟悉程度,指导探索过程,从而找到最优路径;采用栅格法建立地图。通过仿真和对比试验证明了该方法可以得到全局最优策略。 展开更多
关键词 路径规划 强化学习 q(λ)学习算法 移动机器人 搜索策略
下载PDF
强化学习算法在高速铁路运营调度中的应用 被引量:1
15
作者 吴越 袁志明 +3 位作者 代学武 崔东亮 程丽娟 岳鹏 《铁路计算机应用》 2022年第7期92-98,共7页
随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规... 随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规模大、约束多等特点,导致传统的强化学习方法Q学习算法的学习效率低、收敛缓慢。文章提出一种基于Q(λ)学习的高铁运行计划智能调整算法,采用累积式资格迹设计多步奖励更新机制,有效解决稀疏奖励下收敛慢的问题,目标函数设计中充分考虑了股道运用计划,更适合反应行车密度增大时到发线的使用情况。仿真实验表明,Q(λ)学习算法在学习效率、收敛速度和收敛结果上均优于传统的Q学习算法。 展开更多
关键词 高速铁路 调度算法 股道运用计划 资格迹 q(λ)学习
下载PDF
基于LS-SVM和Q(λ)学习的铁路绝缘子水冲洗定位研究 被引量:2
16
作者 王国志 付虹 +2 位作者 邓斌 于兰英 吴文海 《电瓷避雷器》 CAS 北大核心 2019年第2期192-196,共5页
电气化铁路绝缘子智能冲洗的关键在于绝缘子跟踪、定位,通过对现有冲洗研究的分析,提出一种基于最小二乘支持向量机(LS-SVM)和Q(λ)学习的铁路绝缘子水冲洗定位方法。将水炮连续动作空间下的冲洗行为离散化,针对连续状态空间下Q(λ)学... 电气化铁路绝缘子智能冲洗的关键在于绝缘子跟踪、定位,通过对现有冲洗研究的分析,提出一种基于最小二乘支持向量机(LS-SVM)和Q(λ)学习的铁路绝缘子水冲洗定位方法。将水炮连续动作空间下的冲洗行为离散化,针对连续状态空间下Q(λ)学习可能面临维数灾难等问题,利用LS-SVM对Q值进行在线估计,为节省估计时间,训练样本采用滚动时间窗机制进行整体更新。Matlab仿真结果表明:该方法可将绝缘子定位时间缩短为0. 006 s,能够达到工程识别要求。 展开更多
关键词 最小二乘支持向量机 铁路绝缘子 q(λ)学习 定位
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部