期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种二阶TD Error快速Q(λ)算法 被引量:5
1
作者 傅启明 刘全 +3 位作者 孙洪坤 高龙 李瑾 王辉 《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期282-292,共11页
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法... Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 展开更多
关键词 强化学习 马尔科夫决策过程 二阶TD ERROR 资格迹 q(λ)算法
下载PDF
一种多步Q强化学习方法 被引量:3
2
作者 陈圣磊 吴慧中 +1 位作者 韩祥兰 肖亮 《计算机科学》 CSCD 北大核心 2006年第3期147-150,共4页
Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k... Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。 展开更多
关键词 强化学习 Mq算法 q学习 q(λ)算法
下载PDF
基于群智能强化学习的电网最优碳-能复合流算法 被引量:4
3
作者 郭乐欣 张孝顺 +1 位作者 谭敏 余涛 《电测与仪表》 北大核心 2017年第1期1-7,共7页
结合电网能流和碳排放流的传输特性,建立了电网最优碳-能复合流的数学模型,并提出了基于群智能的多步回溯Q(λ)强化学习算法,有效解决了电网碳-能复合流的动态优化问题。其中以线性加权的方式把电网网损、碳流损耗和电压稳定设计为奖励... 结合电网能流和碳排放流的传输特性,建立了电网最优碳-能复合流的数学模型,并提出了基于群智能的多步回溯Q(λ)强化学习算法,有效解决了电网碳-能复合流的动态优化问题。其中以线性加权的方式把电网网损、碳流损耗和电压稳定设计为奖励函数,通过引入粒子群的多主体计算,每个主体都有各自的Q值矩阵进行寻优迭代。IEEE118节点仿真结果表明:较传统Q(λ)算法本文所提出算法能在保证较好全局寻优能力的同时,收敛速度至少能提高10倍以上,为解决实际大规模复杂电网的碳-能复合流在线滚动优化提供了一种快速、有效的方法。 展开更多
关键词 q(λ)算法 群智能 最优碳-能复合流 强化学习
下载PDF
基于强化学习理论的输电网扩展规划方法 被引量:11
4
作者 王渝红 胡胜杰 +2 位作者 宋雨妍 江栗 沈力 《电网技术》 EI CSCD 北大核心 2021年第7期2829-2838,共10页
该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回... 该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回溯Q(λ)算法,利用强化学习智能体以最大累积奖励为目标,结合输电网扩展规划特性,将混合整数规划模型转换为算法的智能体与环境,用以模拟规划人员对电网的规划过程。在Garver-6与IEEE 24-RTS系统中验证该文所提方法的有效性,并与其他智能算法进行比较。 展开更多
关键词 输电网扩展规划 强化学习 多步回溯q(λ)算法 自适应学习因子
下载PDF
基于启发式强化学习的AGV路径规划 被引量:8
5
作者 唐恒亮 唐滋芳 +2 位作者 董晨刚 尹棋正 海秋茹 《北京工业大学学报》 CAS CSCD 北大核心 2021年第8期895-903,共9页
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智... 针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势. 展开更多
关键词 自动引导小车(automated guided vehicle AGV) 强化学习 q(λ)算法 启发式奖励函数 启发式动作选择策略 路径规划
下载PDF
基于MDP自适应决策的库存控制
6
作者 刘虹 《河北建筑科技学院学报》 2006年第3期109-112,共4页
MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解... MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了。 展开更多
关键词 MDP自适应决策 在线q(λ)算法 库存控制 连续状态和决策空间 神经网络
下载PDF
基于图像识别的爬壁机器人的路径规划 被引量:1
7
作者 何宏 李宇 张志宏 《工业技术创新》 2015年第3期267-271,共5页
目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。本文结合单步Q-learning算法,并对该算法进行改进,提出了跟踪... 目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。本文结合单步Q-learning算法,并对该算法进行改进,提出了跟踪迹Q(λ)算法:即一种基于离散马尔可夫决策过程的经典Q学习并结合了瞬时差分算法多步回报和跟踪迹提取的算法。实践表明,该算法解决了路径规划过程中,强化学习算法存在的局部寻优能力差、实时性不强等缺点。 展开更多
关键词 爬壁机器人 路径规划 跟踪迹q(λ)算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部