-
题名基于状态回溯代价分析的启发式Q学习
被引量:9
- 1
-
-
作者
方敏
李浩
-
机构
西安电子科技大学计算机学院西安
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第9期838-844,共7页
-
基金
国家自然科学基金项目(No.61070143,61101248)
中央高校基本科研业务费项目(No.K5051203003)资助
-
文摘
由于强化学习算法动作策略学习比较费时,提出一种基于状态回溯的启发式强化学习方法.分析强化学习过程中重复状态,通过比较状态回溯过程中重复动作的选择策略,引入代价函数描述重复动作的重要性.结合动作奖赏及动作代价提出一种新的启发函数定义.该启发函数在强调动作重要性以加快学习速度的同时,基于代价函数计算动作选择的代价以减少不必要的探索,从而平稳地提高学习效率.对基于代价函数的动作选择策略进行证明.建立两种仿真场景,将算法用于机器人路径规划的仿真实验.实验结果表明基于状态回溯的启发式强化学习方法能平衡考虑获得的奖赏及付出的代价,有效提高Q学习的收敛速度.
-
关键词
代价分析
启发函数
状态回溯
q学习
-
Keywords
Cost Analysis, Heuristic Function, State backtracking, q-learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于多步回溯Q(λ)的PSS最优控制方法的研究
被引量:4
- 2
-
-
作者
余涛
甄卫国
-
机构
华南理工大学电力学院
-
出处
《电力系统保护与控制》
EI
CSCD
北大核心
2011年第3期18-23,28,共7页
-
基金
国家自然科学基金项目(50807016)
广东省自然科学基金项目(9151064101000049)
中央高校基本科研业务费专项资金资助~~
-
文摘
电力系统稳定器(PSS)是用来产生能抑制低频电力系统振荡的励磁系统辅助控制信号,具备自学习和参数在线整定能力是未来智能电网PSS控制器的一个发展趋势。提出一种基于多步回溯Q(λ)学习的新颖电力系统稳定器设计方法。利用多步回溯Q(λ)控制器代替整个传统PSS作为励磁附加控制,并与传统PSS和Q学习控制器进行比较。仿真研究显示,引入基于多步回溯Q(λ)学习的PSS控制后显著增强了整个系统的鲁棒性,有效提高了系统抑制低频电力系统振荡的能力,较好地解决了Q学习控制器收敛速度慢的问题。
-
关键词
电力系统稳定器(PSS)
马尔可夫策略(MDP)
强化学习
q学习
多步回溯q(λ)学习
-
Keywords
power system stabilizer (PSS)
Markov decision process (MDP)
reinforcement learning
q-learning
multi-step backtrack q (λ) learning
-
分类号
TM44
[电气工程—电器]
-
-
题名基于Q学习算法的X光主动视觉安检方法
被引量:4
- 3
-
-
作者
丁静文
陈树越
陆贵荣
-
机构
常州大学信息科学与工程学院
-
出处
《计算机应用》
CSCD
北大核心
2018年第12期3414-3418,共5页
-
基金
国家自然科学基金资助项目(51176016)
常州市工程技术研究中心项目(CM20179060)~~
-
文摘
针对主动视觉安检方法检测性能不高和检测速度慢的问题,基于Q学习(QL)算法提出了采用状态回溯的启发式Q学习(HASB-QL)算法进行最佳视角估计。该算法引入代价函数和启发函数,提高了学习效率,加快了Q学习收敛。首先,对通过安检扫描仪获取的X光图像进行单视角检测;然后,对姿势作出估计并通过在状态回溯过程中比较重复动作的选择策略获取最佳旋转角度,再次进行单视角检测,直到检测到危险品;此外,在检测过程中多于一个视角时,建立几何约束以消除误报。对GDXray数据集中的手枪和剃刀刀片的X光图像进行实验,实验结果表明,相比于以Q学习为基础的主动视觉算法,改进的主动视觉算法检测手枪所得精确率和召回率之间的加权平均值F1值提高了9. 60%,检测速度提高了12. 45%;检测剃刀刀片所得的F1值提高了2. 51%,速度提高了17. 39%。所提算法提高了危险品检测的性能和速度。
-
关键词
X光图像
安检
主动视觉
状态回溯
启发函数
q学习
-
Keywords
X-ray image
security inspection
active vision
state backtracking
heuristic function
q-learning (qL)
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于强化学习理论的输电网扩展规划方法
被引量:12
- 4
-
-
作者
王渝红
胡胜杰
宋雨妍
江栗
沈力
-
机构
四川大学电气工程学院
智能电网四川省重点实验室(四川大学)
国家电网公司西南分部
-
出处
《电网技术》
EI
CSCD
北大核心
2021年第7期2829-2838,共10页
-
基金
国家电网西南分部科技项目(SGSW0000GHJS 1900117)。
-
文摘
该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回溯Q(λ)算法,利用强化学习智能体以最大累积奖励为目标,结合输电网扩展规划特性,将混合整数规划模型转换为算法的智能体与环境,用以模拟规划人员对电网的规划过程。在Garver-6与IEEE 24-RTS系统中验证该文所提方法的有效性,并与其他智能算法进行比较。
-
关键词
输电网扩展规划
强化学习
多步回溯q(λ)算法
自适应学习因子
-
Keywords
transmission expansion planning
reinforcement learning
multi-step backtracking q(λ)
adaptive learning factor
-
分类号
TM721
[电气工程—电力系统及自动化]
-