一种有限时段Markov决策过程的强化学习算法被引量：4

An algorithm of reinforcement learning for finite-horizon Markov decision processes

下载PDF

导出

摘要研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法。 In this paper, reinforcement learning algorithms for finite horizon non stationary Markov decision processes are studied By introducing an artificialabsorbingstate, the finite horizon problem transforms to an infinite horizon one, so that a normal method of reinforcement learning algorithm can be used to solve the finite-horizon problem A new reinforcement learning algorithm of the finite horizon non stationary Markov decision process is put forward based on the algorithm thought presented by reference book\ And an experiment in inventory control problem with non complete model has been done

作者李春贵刘永信

机构地区广西工学院计算机系内蒙古大学自动化系

出处《广西工学院学报》 CAS 2003年第1期1-4,共4页 Journal of Guangxi University of Technology

关键词强化学习有限时段 MARKOV决策过程无完全模型库存控制机器学习非平稳 reinforcementlearning Markov decision process non stationary inventory control

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1李春贵,林海涛,刘永信.多步截断SARSA强化学习算法[J].广西工学院学报,2002,13(1):1-4. 被引量：5
2Sutton R S,Barto A G.An Introduction to reinforcement learning[M].MIT Press,Cambridge,MA,1998.
3Puterman M L.Markov Decision Problems[M].Wiley,NY.1994.

二级参考文献6

1[1]Watkins C.J. C. H. Learning from delayed rewards [D] . Cambridge Univ. , England. 1989.
2[2]Sutton R.S.Learning to predict by the method of temporal difference [J] .Machine Learning , 1988, (3): 9-44.
3[3]Peng J.& Williams R.Incremental multi-step Q-learning [J] .Machine Learning, 1996, (22): 283-290.
4[4]Rummery G.A & Niranjan M.On-line Q-learning using connectionist systems [R] .CUED/F-INFENG/TR 166,Cambridge University, UK.1994.
5[5]Bertsekas D.P.Dynamic programming: deterministic and stochastic models [M] .Prentice Hall, USA.1987.
6[6]Sutton R.S.& Barto A.G.An introduction to reinforcement learning [M] .The MIT Press, USA.1998.

共引文献4

1李春贵,刘永信,陈波.多步截断行动—评价强化学习算法[J].内蒙古大学学报（自然科学版）,2005,36(2):210-213. 被引量：1
2李春贵.多步截断优先扫描强化学习算法[J].计算机工程,2005,31(11):13-15.
3李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3
4邢宇明,白振兴.分层强化学习在足球机器人中的应用[J].微计算机信息,2008,24(32):231-233. 被引量：2

同被引文献37

1夏莉,黄晶晶.期权定价理论与分阶段投资决策[J].商业研究,2004(16):113-114. 被引量：6
2田厚平,郭亚军,杨耀东.分销系统中多委托人及委托人可能合作的委托代理问题[J].系统工程理论方法应用,2004,13(4):361-366. 被引量：23
3应保胜,容芷君.线性供应链的稳定性分析及稳定化策略研究[J].湖北工业大学学报,2005,20(3):71-73. 被引量：3
4李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
5王迎军,高峻峻,郭亚军.基于需求预测的分销系统成本模型[J].系统工程学报,2006,21(1):97-101. 被引量：1
6刘昌贵,但斌.供应链战略合作伙伴关系的建立与稳定问题[J].软科学,2006,20(3):60-63. 被引量：24
7道金斯.自私的基因[M].长春:吉林人民出版社,1998.216113-5.
8Antonio Murciano,Jose del R Millan,Javier Zamora. Specialization in Multi-agent Systems Through Learning[J]. Biological Cybernetics, 1997:76(5):375-382.
9Kim C O, Jun J, Baek J K, et al. Adaptive Inventory Control Models for Supply Chain Management[J]. Int J of Advanced Manufacturing Technology, 2004,26(7):1184-1192.
10成思危.中国经济改革与发展(第一集)[M].北京:中国人民大学出版社,2000.

引证文献4

1李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
2党兴华,权小锋,尹洪英.强化学习算法在分阶段组合投资决策中的应用[J].科技管理研究,2006,26(3):241-243. 被引量：1
3权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
4权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.

二级引证文献9

1权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
2权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.
3张蓓佳,侯合银.技术创新影响下的分阶段组合投资规模决策模型研究[J].科技管理研究,2011,31(23):56-59. 被引量：2
4丁寅,洪跃,王俊杰.集中采购供应链稳定性研究[J].中国市场,2013(18):28-30. 被引量：11
5欧阳琦,石岿然,蒋凤.供应链成员间信任关系的博弈学习模型[J].物流技术,2014,33(4):297-299. 被引量：3
6王书玲,李永峰.供应链合作关系及其前因变量研究[J].物流科技,2016,39(2):123-126.
7隋博文.关系稳定性、联盟绩效与跨境农产品供应链优化:一个理论框架及变量解释[J].经济与管理评论,2017,33(2):64-71. 被引量：7
8夏文波,翟佳,何开伦.互惠利他行为在供应链管理中的研究综述[J].福建商学院学报,2019,0(6):41-47. 被引量：3
9刘彩虹.我国制造业供应链稳定性研究综述[J].供应链管理,2021,2(1):30-39. 被引量：3

1吴延科,徐晨,李国.基于粒子群统计规律的PSO算法[J].郑州大学学报（理学版）,2006,38(4):98-101. 被引量：4
2杨昱昺,周光宇.计算机集成综合自动化预测控制建模[J].中国制造业信息化（学术版）,2008,37(6):30-33. 被引量：2
3王昱菲,杨庚.一种基于Waters-IBE的在线/离线加密方案[J].微电子学与计算机,2012,29(11):42-44. 被引量：1
4曾红卫,缪淮扣.用模型检验产生安全性质的测试[J].应用科学学报,2011,29(5):529-536. 被引量：1
5盛华,方强.基于广义预测的双电机同步控制[J].机电工程,2010,27(3):107-110. 被引量：8
6刘倩,谭文,李东海.一种多变量自抗扰控制结构的设计研究[J].华北电力大学学报（自然科学版）,2014,41(6):97-103. 被引量：25
7简志敏,胡东成,童诗白.一般有向图法的实现及其应用[J].自动化学报,1997,23(6):782-785. 被引量：1
8张若青,裘丽华.基于动态神经网络的液压伺服系统故障检测[J].机械工程学报,2002,38(3):46-49. 被引量：19
9韩伟.效用驱动的Markov强化学习[J].计算机工程与应用,2009,45(4):42-44.
10孙洁,乔威,程兆林.不确定奇异系统的变结构控制[J].山东大学学报（理学版）,2005,40(5):52-56. 被引量：3

广西工学院学报

2003年第1期

浏览历史

内容加载中请稍等...

一种有限时段Markov决策过程的强化学习算法被引量：4

参考文献3

二级参考文献6

共引文献4

同被引文献37

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种有限时段Markov决策过程的强化学习算法 被引量：4

参考文献3

二级参考文献6

共引文献4

同被引文献37

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种有限时段Markov决策过程的强化学习算法被引量：4