一种基于PSO的分层策略搜索算法被引量：1

An Algorithm for Hierarchical Policy Search Based on PSO

导出

摘要针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通过与环境的直接交互,PSO-HPS利用具有较强全局搜索能力的粒子群对各复合子任务中的参数化策略进行进化,以获得优化的动作策略.最后以协商僵局消解的实验验证PSO-HPS是有效的,其性能明显优于HPGRL. In order to overcome drawbacks in hierarchical policy gradient reinforcement learning algorithm （HPGRL）, such as problem of local optimum, a new algorithm for searching hierarchical policies is proposed, named Hierarchical Policy Search Based on PSO （PSO-HPS）. The designers create the task decomposition graph according to the hierarchical theory of MAXQ, one of the classical hierarchical reinforcement learning techniques. Then the hierarchical parameterized policies of all compound subtasks are evolved in process of direct interaction with the environment by utilizing a particle swarm to acquire the optimized action policies. Experimental results demonstrate the algorithm is valid and its performance outperforms that of HPGRL remarkably.

作者彭志平李绍平

机构地区茂名学院计算机科学与技术系

出处《模式识别与人工智能》 EI CSCD 北大核心 2008年第1期98-103,共6页 Pattern Recognition and Artificial Intelligence

基金广东省自然科学基金项目资助(No.06029281 05011905)

关键词分层强化学习粒子群优化算法(PSO) 分层策略协商僵局 Hierarchical Reinforcement Learning, Particle Swarm Optimization （PSO）,Hierarchical Policies, Negotiation Deadlock

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
2WEILI QingtaiYE ChangmingZHU.APPLICATION OF HIERARCHICAL REINFORCEMENT LEARNING IN ENGINEERING DOMAIN[J].Journal of Systems Science and Systems Engineering,2005,14(2):207-217. 被引量：3
3彭志平,彭宏,郑启伦.一种双边多议题自治协商模型的研究[J].电子与信息学报,2007,29(3):733-738. 被引量：12
4苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9

二级参考文献39

1郭庆,陈纯.基于整合效用的多议题协商优化[J].软件学报,2004,15(5):706-711. 被引量：27
2[1]Bao, G., C. G. Cassandras, T. E. Djaferis,A.D. Gandhi, and D. P. Looze, "Elevator dispatchers for down peak traffic", ECE Department Technical Report, University of Massachusetts, 1994.
3[2]Barto, A. G., S. Mahadevan, "Recent advances in hierarchical reinforcement learning", Discrete Event Dynamic Systems:Theory and Applications, Vol. 13, pp41-77,2003.
4[3]Bradtke, S. J. and M. O. Duff,"Reinforcement learning methods for continuous-time Markov decision problems", Advances in Neural Information Processing Systems 7,Cambridge, MA, 1995.
5[4]Crites, R. H. and A. G. Barto, "Improving elevator performance using reinforcement learning", Advances in Neural Information Processing Systems 8, pp1017-1023, 1996.
6[5]Mahadevan, S., M. Nicholas, D. Tapas. and G. Abhijit, "Self-Improving factory simulation using continuous-time average-reward reinforcement learning",Proceedings of the 14th International Conference on Machine Learning (IMLC ′97), Nashville, TN, 1997.
7[6]Mataric, M., "Reinforcement learning in the multi-robot domain", Autonomous Robots, Vol. 4, No. 1, pp73-83, 1997.
8[7]Parr, R., "Hierarchical control and learning for markov decision processes", Ph.D.dissertation, University of California,Berkeley, CA, 1998.
9[8]Rajbala, M., M. Sridhar, and G.Mohammad, "Hierarchical multi-agent reinforcement learning", Proceedings of the fifth International Conference on Autonomous Agents, pp246-253, 2001.
10[9]Sutton, R.S. and A.G. Barto, Reinforcement Learning: An Introduction, Cambridge,MA: MIT Press, 1998.

共引文献285

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献14

1张武军,叶剑锋,梁伟杰,方鸽飞.基于改进遗传算法的多目标无功优化[J].电网技术,2004,28(11):67-71. 被引量：81
2胡明辉,殷苌茗,李立云.基于ACCA的Option自动生成算法[J].计算机工程与应用,2008,44(19):39-40. 被引量：1
3余涛,周斌,甄卫国.强化学习理论在电力系统中的应用及展望[J].电力系统保护与控制,2009,37(14):122-128. 被引量：28
4王家林,夏立,吴正国,杨宣访.采用量子遗传算法的电力系统PMU最优配置[J].高电压技术,2010,36(11):2838-2842. 被引量：13
5谢光强,陈学松.一种新的基于蚁群优化的模糊强化学习算法[J].计算机应用研究,2011,28(4):1266-1268. 被引量：2
6余涛,周斌,陈家荣.基于多步回溯Q(λ)学习的互联电网随机最优CPS控制[J].电工技术学报,2011,26(6):179-186. 被引量：14
7周天睿,康重庆,徐乾耀,陈启鑫.电力系统碳排放流分析理论初探[J].电力系统自动化,2012,36(7):38-43. 被引量：124
8余涛,刘靖,胡细兵.基于分布式多步回溯Q(λ)学习的复杂电网最优潮流算法[J].电工技术学报,2012,27(4):185-192. 被引量：11
9李保卫,胡泽春,宋永华,王广辉.电力碳排放区域分摊的原则与模型[J].电网技术,2012,36(7):12-18. 被引量：48
10李保卫,胡泽春,宋永华,方晓松,杨俊.用户侧电力碳排放强度的评估原则与模型[J].电网技术,2012,36(8):6-11. 被引量：25

引证文献1

1郭乐欣,张孝顺,谭敏,余涛.基于群智能强化学习的电网最优碳-能复合流算法[J].电测与仪表,2017,54(1):1-7. 被引量：4

二级引证文献4

1陈忠,吴靓.基于数据挖掘技术的电网网损的评价算法的研究[J].电工技术,2018(9):3-6.
2张昭,张天奇.基于群体智能的自组织运动控制综述[J].电子科技,2019,32(11):52-57. 被引量：2
3夏鹏,许宁,周永刚.计及静态电压稳定的配电网多目标无功优化研究[J].信息技术,2023,47(3):64-69.
4杨雨瑶,潘峰,钟立华,张军,招景明.基于神经网络的电力系统节点碳排放因子预测方法[J].广东电力,2023,36(10):2-9. 被引量：1

1杨善林,罗贺,胡小建.基于Q学习的自主Agent模型[J].微电子学与计算机,2006,23(9):203-205. 被引量：5
2李旭东,朱立谷.基于LoadRunner的参数化策略的研究与应用[J].计算机应用与软件,2012,29(12):232-236. 被引量：4
3蔡悦洁,胡方明.一种基于LEACH路由协议的改进算法[J].电子科技,2012,25(8):128-131. 被引量：3
4彭志平,陈珂.一种消解协商僵局的多目标粒子群优化算法[J].电子学报,2007,35(8):1452-1457. 被引量：7
5安岭丽,彭志平,李铁鹰.MAXQ方法在出租车问题中的应用[J].茂名学院学报,2007,17(1):56-59.
6彭志平,柯文德.一种连续U-树抽象状态最佳分裂点选取方法[J].上海交通大学学报,2008,42(2):279-284. 被引量：1
7赵晓俠.合成邏辑TAC中合子的生成[J].电子科技大学学报,1989,18(1):103-106.
8王黎明,沈扬.协商僵局的消解策略研究[J].计算机应用,2010,30(6):1519-1522. 被引量：2
9彭志平,彭宏.基于并发Options的双边多议题协商模型优化[J].华南理工大学学报（自然科学版）,2007,35(9):95-100. 被引量：2
10庞士焕,朱相冰,张琦,汤萍萍.基于MAXQ方法的分层强化学习[J].计算机技术与发展,2009,19(4):154-156. 被引量：1

模式识别与人工智能

2008年第1期

浏览历史

内容加载中请稍等...

一种基于PSO的分层策略搜索算法被引量：1

参考文献4

二级参考文献39

共引文献285

同被引文献14

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于PSO的分层策略搜索算法 被引量：1

参考文献4

二级参考文献39

共引文献285

同被引文献14

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于PSO的分层策略搜索算法被引量：1