检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到7篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

一种二阶TD Error快速Q(λ)算法被引量：5: 1; 作者傅启明刘全 +3 位作者孙洪坤高龙李瑾王辉《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期282-292,共11页; Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法... 展开更多; 关键词强化学习马尔科夫决策过程二阶TD ERROR 资格迹 q(λ)算法; 下载PDF 职称材料

一种多步Q强化学习方法被引量：3: 2; 作者陈圣磊吴慧中 +1 位作者韩祥兰肖亮《计算机科学》 CSCD 北大核心 2006年第3期147-150,共4页; Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k... 展开更多; 关键词强化学习 Mq算法 q学习 q(λ)算法; 下载PDF 职称材料

基于群智能强化学习的电网最优碳-能复合流算法被引量：4: 3; 作者郭乐欣张孝顺 +1 位作者谭敏余涛《电测与仪表》北大核心 2017年第1期1-7,共7页; 结合电网能流和碳排放流的传输特性,建立了电网最优碳-能复合流的数学模型,并提出了基于群智能的多步回溯Q(λ)强化学习算法,有效解决了电网碳-能复合流的动态优化问题。其中以线性加权的方式把电网网损、碳流损耗和电压稳定设计为奖励... 展开更多; 关键词 q(λ)算法群智能最优碳-能复合流强化学习; 下载PDF 职称材料

基于强化学习理论的输电网扩展规划方法被引量：11: 4; 作者王渝红胡胜杰 +2 位作者宋雨妍江栗沈力《电网技术》 EI CSCD 北大核心 2021年第7期2829-2838,共10页; 该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回... 展开更多; 关键词输电网扩展规划强化学习多步回溯q(λ)算法自适应学习因子; 下载PDF 职称材料

基于启发式强化学习的AGV路径规划被引量：8: 5; 作者唐恒亮唐滋芳 +2 位作者董晨刚尹棋正海秋茹《北京工业大学学报》 CAS CSCD 北大核心 2021年第8期895-903,共9页; 针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智... 展开更多; 关键词自动引导小车(automated guided vehicle AGV) 强化学习 q(λ)算法启发式奖励函数启发式动作选择策略路径规划; 下载PDF 职称材料

基于MDP自适应决策的库存控制: 6; 作者刘虹《河北建筑科技学院学报》 2006年第3期109-112,共4页; MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解... 展开更多; 关键词 MDP自适应决策在线q(λ)算法库存控制连续状态和决策空间神经网络; 下载PDF 职称材料

基于图像识别的爬壁机器人的路径规划被引量：1: 7; 作者何宏李宇张志宏《工业技术创新》 2015年第3期267-271,共5页; 目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。本文结合单步Q-learning算法,并对该算法进行改进,提出了跟踪... 展开更多; 关键词爬壁机器人路径规划跟踪迹q(λ)算法; 原文传递

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部