期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于状态回溯代价分析的启发式Q学习 被引量:9
1
作者 方敏 李浩 《模式识别与人工智能》 EI CSCD 北大核心 2013年第9期838-844,共7页
由于强化学习算法动作策略学习比较费时,提出一种基于状态回溯的启发式强化学习方法.分析强化学习过程中重复状态,通过比较状态回溯过程中重复动作的选择策略,引入代价函数描述重复动作的重要性.结合动作奖赏及动作代价提出一种新的启... 由于强化学习算法动作策略学习比较费时,提出一种基于状态回溯的启发式强化学习方法.分析强化学习过程中重复状态,通过比较状态回溯过程中重复动作的选择策略,引入代价函数描述重复动作的重要性.结合动作奖赏及动作代价提出一种新的启发函数定义.该启发函数在强调动作重要性以加快学习速度的同时,基于代价函数计算动作选择的代价以减少不必要的探索,从而平稳地提高学习效率.对基于代价函数的动作选择策略进行证明.建立两种仿真场景,将算法用于机器人路径规划的仿真实验.实验结果表明基于状态回溯的启发式强化学习方法能平衡考虑获得的奖赏及付出的代价,有效提高Q学习的收敛速度. 展开更多
关键词 代价分析 启发函数 状态回溯 q学习
下载PDF
基于多步回溯Q(λ)的PSS最优控制方法的研究 被引量:4
2
作者 余涛 甄卫国 《电力系统保护与控制》 EI CSCD 北大核心 2011年第3期18-23,28,共7页
电力系统稳定器(PSS)是用来产生能抑制低频电力系统振荡的励磁系统辅助控制信号,具备自学习和参数在线整定能力是未来智能电网PSS控制器的一个发展趋势。提出一种基于多步回溯Q(λ)学习的新颖电力系统稳定器设计方法。利用多步回溯Q(λ... 电力系统稳定器(PSS)是用来产生能抑制低频电力系统振荡的励磁系统辅助控制信号,具备自学习和参数在线整定能力是未来智能电网PSS控制器的一个发展趋势。提出一种基于多步回溯Q(λ)学习的新颖电力系统稳定器设计方法。利用多步回溯Q(λ)控制器代替整个传统PSS作为励磁附加控制,并与传统PSS和Q学习控制器进行比较。仿真研究显示,引入基于多步回溯Q(λ)学习的PSS控制后显著增强了整个系统的鲁棒性,有效提高了系统抑制低频电力系统振荡的能力,较好地解决了Q学习控制器收敛速度慢的问题。 展开更多
关键词 电力系统稳定器(PSS) 马尔可夫策略(MDP) 强化学习 q学习 多步回溯q(λ)学习
下载PDF
基于Q学习算法的X光主动视觉安检方法 被引量:4
3
作者 丁静文 陈树越 陆贵荣 《计算机应用》 CSCD 北大核心 2018年第12期3414-3418,共5页
针对主动视觉安检方法检测性能不高和检测速度慢的问题,基于Q学习(QL)算法提出了采用状态回溯的启发式Q学习(HASB-QL)算法进行最佳视角估计。该算法引入代价函数和启发函数,提高了学习效率,加快了Q学习收敛。首先,对通过安检扫描仪获取... 针对主动视觉安检方法检测性能不高和检测速度慢的问题,基于Q学习(QL)算法提出了采用状态回溯的启发式Q学习(HASB-QL)算法进行最佳视角估计。该算法引入代价函数和启发函数,提高了学习效率,加快了Q学习收敛。首先,对通过安检扫描仪获取的X光图像进行单视角检测;然后,对姿势作出估计并通过在状态回溯过程中比较重复动作的选择策略获取最佳旋转角度,再次进行单视角检测,直到检测到危险品;此外,在检测过程中多于一个视角时,建立几何约束以消除误报。对GDXray数据集中的手枪和剃刀刀片的X光图像进行实验,实验结果表明,相比于以Q学习为基础的主动视觉算法,改进的主动视觉算法检测手枪所得精确率和召回率之间的加权平均值F1值提高了9. 60%,检测速度提高了12. 45%;检测剃刀刀片所得的F1值提高了2. 51%,速度提高了17. 39%。所提算法提高了危险品检测的性能和速度。 展开更多
关键词 X光图像 安检 主动视觉 状态回溯 启发函数 q学习
下载PDF
基于强化学习理论的输电网扩展规划方法 被引量:12
4
作者 王渝红 胡胜杰 +2 位作者 宋雨妍 江栗 沈力 《电网技术》 EI CSCD 北大核心 2021年第7期2829-2838,共10页
该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回... 该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回溯Q(λ)算法,利用强化学习智能体以最大累积奖励为目标,结合输电网扩展规划特性,将混合整数规划模型转换为算法的智能体与环境,用以模拟规划人员对电网的规划过程。在Garver-6与IEEE 24-RTS系统中验证该文所提方法的有效性,并与其他智能算法进行比较。 展开更多
关键词 输电网扩展规划 强化学习 多步回溯q(λ)算法 自适应学习因子
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部