-
题名一种二阶TD Error快速Q(λ)算法
被引量:5
- 1
-
-
作者
傅启明
刘全
孙洪坤
高龙
李瑾
王辉
-
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第3期282-292,共11页
-
基金
国家自然科学基金项目(No.61070223
61103045
+4 种基金
61272005
61170020)
江苏省自然科学基金项目(No.BK2012616)
江苏省高校自然科学研究项目(No.09KJA520002
09KJB520012)资助
-
文摘
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.
-
关键词
强化学习
马尔科夫决策过程
二阶TD
ERROR
资格迹
q(λ)算法
-
Keywords
Reinforcement Learning, Markov Decision Process, Second Order TD Error, EligibilityTrace, q ( A ) Algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种多步Q强化学习方法
被引量:3
- 2
-
-
作者
陈圣磊
吴慧中
韩祥兰
肖亮
-
机构
南京理工大学计算机科学与技术系
-
出处
《计算机科学》
CSCD
北大核心
2006年第3期147-150,共4页
-
基金
本文得到国防预研基金项目资助
-
文摘
Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。
-
关键词
强化学习
Mq算法
q学习
q(λ)算法
-
Keywords
Reinforcement learning, Mq algorithm, q learning, q(λ)algorithm
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于群智能强化学习的电网最优碳-能复合流算法
被引量:4
- 3
-
-
作者
郭乐欣
张孝顺
谭敏
余涛
-
机构
华南理工大学电力学院
广东省绿色能源技术重点实验室
-
出处
《电测与仪表》
北大核心
2017年第1期1-7,共7页
-
基金
国家重点基础研究发展计划(973计划)(2013CB228205)
国家自然科学基金项目(51177051
51477055)
-
文摘
结合电网能流和碳排放流的传输特性,建立了电网最优碳-能复合流的数学模型,并提出了基于群智能的多步回溯Q(λ)强化学习算法,有效解决了电网碳-能复合流的动态优化问题。其中以线性加权的方式把电网网损、碳流损耗和电压稳定设计为奖励函数,通过引入粒子群的多主体计算,每个主体都有各自的Q值矩阵进行寻优迭代。IEEE118节点仿真结果表明:较传统Q(λ)算法本文所提出算法能在保证较好全局寻优能力的同时,收敛速度至少能提高10倍以上,为解决实际大规模复杂电网的碳-能复合流在线滚动优化提供了一种快速、有效的方法。
-
关键词
q(λ)算法
群智能
最优碳-能复合流
强化学习
-
Keywords
q ( λ ) learning, Swarm intelligence, optimal carbon-energy combined-flow, reinforcement learning
-
分类号
TM734
[电气工程—电力系统及自动化]
-
-
题名基于强化学习理论的输电网扩展规划方法
被引量:11
- 4
-
-
作者
王渝红
胡胜杰
宋雨妍
江栗
沈力
-
机构
四川大学电气工程学院
智能电网四川省重点实验室(四川大学)
国家电网公司西南分部
-
出处
《电网技术》
EI
CSCD
北大核心
2021年第7期2829-2838,共10页
-
基金
国家电网西南分部科技项目(SGSW0000GHJS 1900117)。
-
文摘
该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回溯Q(λ)算法,利用强化学习智能体以最大累积奖励为目标,结合输电网扩展规划特性,将混合整数规划模型转换为算法的智能体与环境,用以模拟规划人员对电网的规划过程。在Garver-6与IEEE 24-RTS系统中验证该文所提方法的有效性,并与其他智能算法进行比较。
-
关键词
输电网扩展规划
强化学习
多步回溯q(λ)算法
自适应学习因子
-
Keywords
transmission expansion planning
reinforcement learning
multi-step backtracking q(λ)
adaptive learning factor
-
分类号
TM721
[电气工程—电力系统及自动化]
-
-
题名基于启发式强化学习的AGV路径规划
被引量:8
- 5
-
-
作者
唐恒亮
唐滋芳
董晨刚
尹棋正
海秋茹
-
机构
北京物资学院信息学院
-
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2021年第8期895-903,共9页
-
基金
教育部人文社科基金资助项目(20YJCZH200)
北京市教育委员会科技计划资助项目(KM202110037002)
+1 种基金
北京市“高创计划”青年拔尖人才资助项目(2017000026833ZK25)
北京市通州区运河计划领军人才资助项目(YHLB2017038)
-
文摘
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势.
-
关键词
自动引导小车(automated
guided
vehicle
AGV)
强化学习
q(λ)算法
启发式奖励函数
启发式动作选择策略
路径规划
-
Keywords
automated guided vehicle(AGV)
reinforcement learning
q(λ)algorithm
heuristic reward function
heuristic action selection strategy
path planning
-
分类号
U461
[机械工程—车辆工程]
TP308
[自动化与计算机技术—计算机系统结构]
-
-
题名基于MDP自适应决策的库存控制
- 6
-
-
作者
刘虹
-
机构
江苏大学理学院
-
出处
《河北建筑科技学院学报》
2006年第3期109-112,共4页
-
文摘
MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了。
-
关键词
MDP自适应决策
在线q(λ)算法
库存控制
连续状态和决策空间
神经网络
-
Keywords
MDP adaptive decision
online q( λ )-learning method
inventory control
continuous state and decision space
neural network
-
分类号
O211
[理学—概率论与数理统计]
-
-
题名基于图像识别的爬壁机器人的路径规划
被引量:1
- 7
-
-
作者
何宏
李宇
张志宏
-
机构
天津理工大学自动化学院天津市复杂系统控制理论及应用重点实验室
天津广播电视台传输发射部
-
出处
《工业技术创新》
2015年第3期267-271,共5页
-
基金
天津市高等学校创新团队培养计划(项目编号:TD12-5015)
-
文摘
目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。本文结合单步Q-learning算法,并对该算法进行改进,提出了跟踪迹Q(λ)算法:即一种基于离散马尔可夫决策过程的经典Q学习并结合了瞬时差分算法多步回报和跟踪迹提取的算法。实践表明,该算法解决了路径规划过程中,强化学习算法存在的局部寻优能力差、实时性不强等缺点。
-
关键词
爬壁机器人
路径规划
跟踪迹q(λ)算法
-
Keywords
Wall-climbing robots
Path planning
Trackingq(λ) algorithm
-
分类号
TP242.2
[自动化与计算机技术—检测技术与自动化装置]
-