连续空间中的随机技能发现算法被引量：2

A random skill discovery algorithm in continuous spaces

下载PDF

导出

摘要针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大。以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机定义,因此算法在初始性能上具有间歇的不稳定性,但是随着随机技能树集合的增加,能较快地收敛到近似最优解,能有效克服因为维数灾引起的难以求取最优策略或收敛速度过慢的问题。 In allusion to the large and continuous space＇s＂dimension curse＂problem caused by the increase of state dimension exponential order,an improved random skill finding algorithm based on Option hierarchical reinforcement learning framework is proposed. A random skill tree set is generated via defining random Option to construct a random skill tree set. The task goal is divided into several sub-goals,and then the increase of learning parameter exponent due to the increase of the intelligent agent is reduced through learning low-order Option policy. The simulation experiment and analysis were implemented by taking a shortest path between any two points in two- dimension maze with barriers in the continuous space as the task. The experiment result shows that the algorithm may have some intermittent instability in the initial performance because Option is defined randomly,but it can be converged to the approximate optimal solution quickly with the increase of the random skill tree set,which can effectively overcome the problem being hard to obtain the optimal policy and slow convergence due to＂dimension curse＂.

作者栾咏红刘全章鹏

机构地区苏州工业职业技术学院苏州大学计算机科学与技术学院吉林大学符号计算与知识工程教育部重点实验室

出处《现代电子技术》北大核心 2016年第10期14-17,20,共5页 Modern Electronics Technique

基金国家自然科学基金项目(61303108 61373094 61472262) 江苏省高校自然科学研究项目资助(13KJB520020) 吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04) 江苏省高等职业院校国内高级访问学者计划资助项目(2014FX058)

关键词强化学习 OPTION 连续空间随机技能发现 reinforcement learning Option continuous space random skill discovery

分类号 TN911.34 [电子电信—通信与信息系统] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1SUTTON R S, BARTO A G. Reinforcement learning: An intro- duction [M]. Cambridge, MA: MIT Press, 1998.
2KAELBLING L P, LITTMAN M L, MOORE A W. Reinforce- ment learning : A survey [EB/OL]. [1996-05-01]. http ://www.cs. cmu.edu/afs/cs...vey.html.
3BARTO A G, MAHADEVAN S. Recent advances in hierarchi- cal reinforcement learning [J]. Discrete event dynamic systems.2003, 13(4): 341-379.
4SIMSEK O, WOLFE A P, BARTO A G. Identifying useful sub- goals in reinforcement learning by local graph partitioning [C]// Proceedings of the 22nd International Conference on Machine learning. USA: ACM, 2005, 8: 816-823.
5OSENTOSKI S, MAHADEVAN S. Learning state-action basis functions for hierarchical MDPs [C]// Proceedings of the 24th International Conference on Machine learning. USA: ACM, 2007, 7: 705-712.
6MCGOVERN A, BARTO A. Autonomous discovery of subgolas in reinfoeremente learning using deverse density [C]// Pro- ceedings of the 8th Intemational Coference on Machine Learning. San Fransisco:Morgan Kaufmann, 2001 : 361-368.
7JONG N K, STONE P. State abstraction discovery from irrele- vant state variables [J]. IJCAI, 2005, 8: 752-757.
8KONIDARIS G, BARTO A G. Skill discovery in continuous re- inforcement learning domains using skill chaining [J]. NIPS, 2009, 8: 1015-1023.
9KONIDARIS G, KUINDERSMA S, BARTO A G, et al. Con- structing skill trees for reinforcement learning agents from demonstration trajectories [J]. NIPS, 2010, 23 : 1162-1170.
10刘全,闫其粹,伏玉琛,胡道京,龚声蓉.一种基于启发式奖赏函数的分层强化学习方法[J].计算机研究与发展,2011,48(12):2352-2358. 被引量：11

二级参考文献38

1张汝波,顾国昌,杨歌,郭轶尊.具有学习能力的智能机器人体系结构研究[J].华中科技大学学报（自然科学版）,2004,32(S1):58-60. 被引量：4
2魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
3陈春林,陈宗海.Reinforcement learning for mobile robot:fromreaction to deliberation[J].Journal of Systems Engineering and Electronics,2005,16(3):611-617. 被引量：1
4苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
5王本年,高阳,陈兆乾,谢俊元,陈世福.面向Option的k-聚类Subgoal发现算法[J].计算机研究与发展,2006,43(5):851-855. 被引量：8
6董道毅,陈春林,陈宗海,张陈斌.Quantum Mechanics Helps in Learning for More Intelligent Robots[J].Chinese Physics Letters,2006,23(7):1691-1694. 被引量：1
7NILSSON N. Shakey the robot[ R]. Menlo Park, USA: AI Center, SRI International, 1984.
8BROOKS R. A Robust layered control system for a mobile robot[ J]. IEEE Journal of Robotics and Automation, 1986, 2(1) :14-23.
9CONNELL J. SSS: a hybrid architecture applied to robot navigation[ C]//ICRA, Piscataway. USA: IEEE, 1992 : 2719 -2724.
10BARTO A G, MAHADEVAN S. Recent advances in hierarchical reinforcement learning [J].Discrete Event Dynamic Systems : Theory and Applications, 2003,13 (4) : 41-77.

共引文献23

1肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
2柯文德,彭志平,陈珂,项顺伯.基于分层Option的仿人机器人相似性关键姿势转换[J].计算机应用,2013,33(5):1301-1304.
3柯文德,洪炳镕,崔刚,蔡则苏.一种基于π-MaxQ学习的多机器人协作方法[J].智能计算机与应用,2013,3(3):14-17. 被引量：2
4孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展,2013,50(10):2176-2184. 被引量：2
5穆翔,刘全,傅启明,孙洪坤,周鑫.基于两层模糊划分的时间差分算法[J].通信学报,2013,34(10):92-99. 被引量：1
6朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
7周鑫,刘全,傅启明,肖飞.一种批量最小二乘策略迭代方法[J].计算机科学,2014,41(9):232-238. 被引量：9
8马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
9刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：39
10刘全,肖飞,傅启明,伏玉琛,周小科,朱斐.基于自适应归一化RBF网络的Q-V值函数协同逼近模型[J].计算机学报,2015,38(7):1386-1396. 被引量：9

同被引文献18

1王峥,尤鸣宇,刘家铭,李国正.基于偏最小二乘法的咳嗽信号检测[J].计算机工程,2014,40(6):281-284. 被引量：1
2马莎莎,戴曙光,穆平安.基于短时能量的循环AMDF基音检测算法[J].计算机仿真,2014,31(7):278-282. 被引量：10
3景新幸,赵靖,杨海燕.一种自适应样本熵的语音端点检测方法[J].电声技术,2014,38(8):45-48. 被引量：2
4田旺兰,李加升.改进运用深度置信网络的语音端点检测方法[J].计算机工程与应用,2014,50(20):207-210. 被引量：5
5赵欢,冯璐,陈佐,张希翔.基于动态特性的D-LTSV语音端点检测方法[J].计算机工程,2014,40(12):277-281. 被引量：3
6蒲国林,邱玉辉.基于稀疏表示全局字典学习的图像分类方法[J].计算机应用,2015,35(2):499-501. 被引量：9
7马毅,张杰,任广波,崔廷伟.基于决策级数据融合的CHRIS高光谱图像分类方法研究[J].海洋科学,2015,39(2):8-14. 被引量：6
8张旭,蒋建国,洪日昌,杜跃.基于朴素贝叶斯K近邻的快速图像分类算法[J].北京航空航天大学学报,2015,41(2):302-310. 被引量：12
9王明合,张二华,唐振民,许昊.基于Fisher线性判别分析的语音信号端点检测方法[J].电子与信息学报,2015,37(6):1343-1349. 被引量：20
10罗会兰,郭敏杰,孔繁胜.一种基于多级空间视觉词典集体的图像分类方法[J].电子学报,2015,43(4):684-693. 被引量：13

引证文献2

1田秀丽,黄亚丽.空间噪声下语音信号端点检测仿真研究[J].计算机仿真,2017,34(5):406-409. 被引量：3
2王芳,丁小娜.关于空间利用优化的图形特征分类研究[J].计算机仿真,2018,35(6):348-352. 被引量：1

二级引证文献4

1葛名立.基于FPGA的语音数据交换控制处理及应用[J].电子设计工程,2019,27(12):189-193. 被引量：2
2刘丽.低信噪比下语音多路信号端点切分仿真[J].计算机仿真,2019,36(7):161-164. 被引量：1
3张雁鹏,战希臣,李文立,周政委,杨睿英.航空装备实验室项目质量GA-BP评估模型[J].实验室研究与探索,2023,42(4):274-279.
4韩天,张宏国,郑重,崔扬,于晓洋.基于时序结构的听觉感知语音信号端点特征检测[J].吉林大学学报（工学版）,2019,49(1):313-318. 被引量：2

1王茂森,朱燕生,符涛涛,施建国.基于ARM的某型八足机器人控制系统设计[J].计算机测量与控制,2013,21(4):942-944. 被引量：1
2姜亚莉.基于符号推理的图像连通性分析[J].北京师范大学学报（自然科学版）,2012,48(2):205-209.
3李擎,谢四江,童新海,王志良.一种用于车辆最短路径规划的自适应遗传算法及其与Dijkstra和A^＊算法的比较[J].北京科技大学学报,2006,28(11):1082-1086. 被引量：20
4韦忠亮.网络设计中的VLAN策略探讨[J].计算机光盘软件与应用,2010(12):86-86.
5孟树森.LAN与WAN策略上的大辩论[J].通讯世界,1997(9):55-60.
6牛晓丹,朱晓光.蚁群算法在复杂地形下的路径规划应用[J].软件导刊,2009,8(2):50-51. 被引量：1
7张良,杨文涛,刘建湘.蚁群算法在复杂地形下的路径规划应用[J].软件导刊,2007,6(4):95-96.
8翟志刚,王建东.基于UCON的分布式数据库安全模型[J].计算机工程,2011,37(24):50-51. 被引量：1
9刘杰.VLAN在医院网络信息安全管理上的应用[J].计算机光盘软件与应用,2014,17(15):198-198. 被引量：2
10变脸!KINGMAX包装换新颜[J].个人电脑,2008,14(6):130-130.

现代电子技术

2016年第10期

浏览历史

内容加载中请稍等...

连续空间中的随机技能发现算法被引量：2

参考文献14

二级参考文献38

共引文献23

同被引文献18

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

连续空间中的随机技能发现算法 被引量：2

参考文献14

二级参考文献38

共引文献23

同被引文献18

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

连续空间中的随机技能发现算法被引量：2