期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多步回溯Q(λ)学习算法的多目标最优潮流计算 被引量:7
1
作者 余涛 胡细兵 刘靖 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第10期139-145,共7页
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成... 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 展开更多
关键词 电力系统 最优潮流 q(λ)学习算法 多目标优化 强化学习
下载PDF
基于自加强学习算法的发电商报价策略研究 被引量:17
2
作者 马豫超 蒋传文 +2 位作者 候志俭 Ettore Bompard 王承民 《中国电机工程学报》 EI CSCD 北大核心 2006年第17期12-17,共6页
电力市场中发电商的决策过程和多发电商的相互作用过程是个复杂动态问题,很难用传统的解析方法进行分析计算,这在考虑中长时间段交易时尤为突出,且多代理作用机制是个很好的补充。文中提出了一个能够模拟发电商在市场中进行策略性报价... 电力市场中发电商的决策过程和多发电商的相互作用过程是个复杂动态问题,很难用传统的解析方法进行分析计算,这在考虑中长时间段交易时尤为突出,且多代理作用机制是个很好的补充。文中提出了一个能够模拟发电商在市场中进行策略性报价的中长期交易时间段决策过程模型,对多发电商交互作用导致的市场行为进行了仿真试验。该模型基于自加强Watkins’sQ(λ)学习算法并包含了可能对电力市场运行产生重要影响的网络阻塞因素。该模型可以形成发电商的最优策略以最大化中长期生产效益和可以找到中长期市场平衡点并据此评估市场中长期运行情况。通过在标准IEEE-14节点系统中进行仿真计算表明该模型的有效性和新颖性。 展开更多
关键词 电力市场 最优报价策略 多代理 自加强Watkins's q(λ)学习算法
下载PDF
基于Q(λ)-learning的移动机器人路径规划改进探索方法 被引量:4
3
作者 王健 赵亚川 +1 位作者 赵忠英 张平陆 《自动化与仪表》 2019年第11期39-41,67,共4页
强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法... 强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法,以探索成功率判断机器人对环境的熟悉程度,指导探索过程,从而找到最优路径;采用栅格法建立地图。通过仿真和对比试验证明了该方法可以得到全局最优策略。 展开更多
关键词 路径规划 强化学习 q(λ)学习算法 移动机器人 搜索策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部