一种基于信息熵的强化学习算法被引量：4

Reinforcement learning algorithm based on information entropy

下载PDF

导出

摘要针对强化学习中探索和利用之间的平衡控制问题,提出了一种基于信息熵的强化学习算法。该算法利用信息熵的概念,定义了一种新的状态重要性测度,度量了状态与目标之间的关联程度,据此设计了一种探索机制,用于自适应调节学习过程中探索和利用之间的平衡;通过设置可变测度阈值的方法,对状态空间进行自主删减,最终生成合适的、规模较小的状态空间,从而大大节约了计算资源,提高了学习速度。仿真结果表明,所提算法具有较好的学习性能。 To control the balance between exploration and exploitation,a reinforcement learning algorithm based on information entropy is proposed.A new state importance measure is defined from information entropy and is applied to measure the interrelatedness between state and objectives.Based on this new measure,an exploration mechanism is designed for adjusting the balance between exploration and exploitation adaptively.In addition,an autonomic reduction method is obtained by setting the variable threshold of measure,the size of state space can gradually reduce to a small and adapt space,which will save computing resource and accelerate learning speed.Simulation results indicate the good learning performance of the presented reinforcement learning algorithm.

作者赵昀陈庆伟胡维礼

机构地区南京理工大学自动化学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2010年第5期1043-1046,共4页 Systems Engineering and Electronics

基金教育部博士学科点专项科研基金(20070288022) 江苏省自然科学基金(BK2008404) 空间智能控制技术国家级重点实验室资助课题

关键词强化学习探索和利用动作选择信息熵 reinforcement learning exploration and exploitation action-selection information entropy

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1Sutton R S,Barto A G.Reinforcement learning:an introduction[M].Cambridge:MIT Press,1998:3-23.
2Ranasinghe N,Shen W M.Surprise-based learning for developmental robotics[C] ∥ECSIS Symposium on Learning and Adaptive Behaviors for Robotic Systems,2008:65-70.
3沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J].机器人,2006,28(5):544-547. 被引量：15
4Syaffie S,Tadeo F,Martinez E.Model-free learning control of neutralization processes using reinforcement learning[J].Engineering Applications of Artificial Intelligence,2007,20(6):767-782.
5江琦,奚宏生,殷保群.动态电源管理的随机切换模型与在线优化[J].自动化学报,2007,33(1):66-71. 被引量：7
6Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:a survey[J].Journal of Artificial Intelligence Research,1996,4:237-285.
7王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
8Kaelbling L P.Associative reinforcement learning:a generate and test algorithm[J].Machine Learning,1994,15(3):299-319.
9Whiteson S,Stone P.On-line evolutionary computation for reinforcement learning in stochastic domains[C] ∥Proc.of the Genetic and Evolutionary Computation Conference,2006:1577-1584.
10Robert J M.信息论与编码理论[M].北京:电子工业出版社,2003:13-25.

二级参考文献73

1覃柯,孙茂相,孙昌志.动态环境下基于改进人工势场法的机器人运动规划[J].沈阳工业大学学报,2004,26(5):568-571. 被引量：19
2朱庆保.动态复杂环境下的机器人路径规划蚂蚁预测算法[J].计算机学报,2005,28(11):1898-1906. 被引量：50
3高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
4郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
5Suykens J A K, Vandewale J. Least squares support vector machine classifiers. Neural Processing Letters, 1999, 9(3): 293-300.
6Watkins C J C H, Dayan P. Q-learning. Machine Learning, 1992, 8(3-4): 279-292.
7Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: a survey. Journal of Artificial Intelligence Research, 1996, 4(2): 237-285.
8Kyriakos M, Dimitris P. Continuous nearest neighbor queries over sliding windows. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(6): 789-803.
9Wang X S, Tian X L, Cheng Y H. Value approximation with least squares support vector machine in reinforcement learning system. Journal of Computational and Theoretical Nanoscience, 2007, 4(7-8): 1290-1294.
10Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 1998.

共引文献44

1陈学松,杨宜民.基于蚁群优化的模糊Sarsa学习算法[J].华中科技大学学报（自然科学版）,2011,39(S2):340-343.
2张智聪,郑力,翁小华.基于增强学习的平行机调度研究[J].计算机集成制造系统,2007,13(1):110-116. 被引量：2
3陈圣磊,吴慧中,肖亮,朱耀琴.协同设计任务调度的多步Q学习算法[J].计算机辅助设计与图形学学报,2007,19(3):398-402. 被引量：11
4车阿大,晏鹏宇,杨乃定.复杂无等待自动化制造系统的调度算法研究[J].计算机集成制造系统,2007,13(8):1616-1623. 被引量：10
5王萌,王晓荣,李春贵,张增芳.改进人工势场法的移动机器人路径规划研究[J].计算机工程与设计,2008,29(6):1504-1506. 被引量：35
6江琦,奚宏生,殷保群.动态电源管理超时策略自适应优化算法[J].控制与决策,2008,23(4):372-377. 被引量：3
7弋英民,刘丁.动态环境下基于路径规划的机器人同步定位与地图构建[J].机器人,2010,32(1):83-90. 被引量：15
8陈学松,杨宜民.基于递推最小二乘法的多步时序差分学习算法[J].计算机工程与应用,2010,46(8):52-55. 被引量：5
9张小林,杨根庆,张宇宁.SoC的可靠性和低功耗协同优化[J].西南交通大学学报,2010,45(2):284-289. 被引量：2
10姜连祥,杨根庆,李华旺.基于子任务及其执行时间的动态电源管理[J].西南交通大学学报,2010,45(3):435-439.

同被引文献30

1孟祥伟,曲东才,何友.高斯背景下距离扩展目标的恒虚警率检测[J].系统工程与电子技术,2005,27(6):1012-1015. 被引量：32
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3周源泉.关于Fiducial方法的研究[J].质量与可靠性,2005(4):20-24. 被引量：11
4王玮,周海云,尹国举.使用混合Beta分布的Bayes方法[J].系统工程理论与实践,2005,25(9):142-144. 被引量：39
5何友,关键,孟祥伟,等.雷达目标检测与恒虚警处理[M].2版.北京:清华大学出版社,2011.
6Wehner D R. High-resolution radar[M]. 2nd ed. London: Ar tech House, 1987.
7Gerlach K, Steiner M J. Adaptive detection of range distributed targets[J]. IEEE Trans. on Signal Processing, 1999, 47 (7) 1844 - 1851.
8Shui P L, Liu H W, Bao Z. Range spread target detection based on cross time-frequency distribution features of two adjacent re- ceived signals[J]. IEEE Trans. on Signal Processing, 2009, 57 (10) : 3733 -3745.
9Shui P L, Xu S W, I.iu H W. Range-spread target detection u sing consecutive HRRPs[J]. IEEE Trans. on Aerospace and E- lectronic Systems, 2011, 47(1) : 647 - 665.
10Bandiera F, Orlando D, Ricci G. CFAR detection strategies for distributed targets under conic eonstraints[J]. IEEE Trans. on Signal Processing, 2009, 57(9): 3305-3316.

引证文献4

1顾新锋,何友,简涛,郝晓琳.基于修正熵的距离扩展目标检测器[J].系统工程与电子技术,2012,34(6):1136-1139. 被引量：2
2陈浩,张洋,郭波,蒋平.可靠性信息融合中继承因子的确定方法[J].机械科学与技术,2016,35(7):1139-1143. 被引量：2
3杜艾芊,赵海涛,刘南杰.车载通信中基于Q学习的信道接入技术研究[J].计算机技术与发展,2017,27(3):85-90.
4李琛,李茂军,杜佳佳.一种强化学习行动策略ε-greedy的改进方法[J].计算技术与自动化,2019,38(2):141-145. 被引量：2

二级引证文献6

1邓晓波,施长海,高超,杨健.复合高斯杂波中子空间信号检测[J].系统工程与电子技术,2013,35(9):1836-1840. 被引量：1
2问翔,刘宏伟,包敏.宽带雷达动目标的一种互相关系数累加检测器[J].西安电子科技大学学报,2014,41(5):24-29. 被引量：2
3陆凤仪,赵科渊,徐格宁,戚其松.基于多源信息融合及模糊故障树的小子样可靠性评估[J].工程设计学报,2017,24(6):609-617. 被引量：8
4赵科渊,徐格宁,陆凤仪,戚其松.基于多源信息融合及贝叶斯网络的小子样可靠性评估[J].起重运输机械,2018(6):79-84. 被引量：1
5张子霖.基于深度强化学习的电动汽车协调充电算法[J].信息技术与网络安全,2022,41(4):83-89.
6李烨,司轲.频分多址系统分布式强化学习功率控制方法[J].计算机应用研究,2023,40(12):3772-3777.

1胡晓辉.一种基于动态参数调整的强化学习动作选择机制[J].计算机工程与应用,2008,44(28):29-31. 被引量：6
2王翠茹,冯海迅,张江维,袁和金.基于改进粒子群优化算法求解旅行商问题[J].微计算机信息,2006(08S):273-275. 被引量：19
3王庆福.谈数据仓库与数据挖掘教学研究[J].中国科教创新导刊,2012(28):179-179. 被引量：1
4魏振春,徐祥伟,冯琳,丁蓓.基于Q学习和规划的传感器节点任务调度算法[J].模式识别与人工智能,2016,29(11):1028-1036. 被引量：4
5洪炳熔,刘新宇.基于视觉的足球机器人系统[J].计算机应用研究,2001,18(1):1-3. 被引量：29
6傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J].软件学报,2013,24(11):2676-2686. 被引量：4
7仵博,郑红燕,冯延蓬,陈鑫.一种基于模型的可分解贝叶斯在线强化学习[J].电子学报,2014,42(7):1429-1434. 被引量：2
8张文志,吕恬生.强化学习理论在机器人应用中的几个关键问题探讨[J].计算机工程与应用,2004,40(4):69-71. 被引量：2
9邱锦波,冯镔,喻莉,朱光喜.基于宏块重要性测度的重同步方法[J].计算机科学,2010,37(5):81-83. 被引量：1
10万长林,韩旭,牛温佳,王文杰,史忠植.基于动态描述逻辑的服务组合及质量模型[J].电子学报,2010,38(8):1923-1928. 被引量：8

系统工程与电子技术

2010年第5期

浏览历史

内容加载中请稍等...

一种基于信息熵的强化学习算法被引量：4

参考文献11

二级参考文献73

共引文献44

同被引文献30

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵的强化学习算法 被引量：4

参考文献11

二级参考文献73

共引文献44

同被引文献30

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵的强化学习算法被引量：4