可重入生产系统的递阶增强型学习调度被引量：2

HIERARCHICAL REINFORCEMENT LEARNING SCHEDULE FOR RE-ENTRANT MANUFACTURING SYSTEM

下载PDF

导出

摘要对平均报酬型马氏决策过程 ,本文研究了一种递阶增强型学习算法 ;并将算法应用于一个两台机器组成的闭环可重入生产系统 ,计算机仿真结果表明 ,调度结果优于熟知的两种启发式调度策略 . In this paper, a hierarchical reinforcement learning algorithm is investigated for Markov Decision Process with average reward. And it is applied to a close re entrant manufacturing system composed of two machines. Computer simulation demonstrates that the algorithm outperforms two well known heuristic scheduling policies.

作者王利存郑应平

机构地区中国科学院自动化研究所同济大学CIMS研究中心

出处《信息与控制》 CSCD 北大核心 2001年第3期199-203,共5页 Information and Control

基金国家重点基础研究发展规划项目!G19980 2 0 3 0 2 西安交通大学机械制造系统工程国家重点实验室资助课题

关键词超大规模集成电路可重入生产系统递阶增强型学习算法启发式调速 markov decision process,hierarchical,reinforcement learning, schedule

分类号 TN47 [电子电信—微电子学与固体电子学]

引文网络
相关文献

参考文献4

1郑应平赵丽娜.离散事件与混杂系统的调度控制[J].控制理论与应用,1999,16:82-86.
2郑应平，控制理论与应用，1999年，16卷，增刊，82页
3Jin H，Math Oper Res，1997年，22卷，4期，886页
4Dean T，Decomposition Techniques for Planningin Stochastic Domains Proceedings of the14 th Int Joint Confere，1121页

共引文献3

1王利存,郑应平.基于仿真的可重入排队网络灵敏度分析[J].控制与决策,2001,16(1):37-41. 被引量：1
2王利存,郑应平.连续时间可重入生产系统调度策略灵敏度分析[J].计算机集成制造系统-CIMS,2001,7(2):10-14. 被引量：2
3王利存,郑应平.开环可重入排队网络的递阶增强型学习调度[J].系统工程理论与实践,2002,22(5):76-80. 被引量：1

同被引文献25

1Kumar P R.Re-entrant lines[J].Special Issue on Queueing Networks,1993,13(May):87-110.
2Harrison J M,Wein L M.Scheduling of queues:heavy traffic analysis of a two-station closed network[J].Operation Research,1990,38:1052-1064.
3Lu S C H,Ramaswamy D,Kumar P R.Efficient scheduling policies to reduce mean and variance of cycle-time in semiconductor manufacturing plants[J].IEEE Trans.Semiconductor Manufacturing,1994,7:374-385.
4Lu S C H,Kumar P R.Fluctuation smoothing schedbilee workshop on computing and intelligent systems[M].India:Bangalore,1993.
5Johnson S M.Optimal two-and three-stage production schedules with set-up times included[J].Nav.Res.Logistic.Quart,1954,1:61-68.
6Garey M R,Johnson D S.Computers and intertractability:a guide to the theory of NP-completeness[M].San Francisco,California:Freeman W H,1979.
7Bertsekas D P,Tsitsiklis J N.Nero-dynamic programming[M].Athena Scientific,1996.
8Lippman S.Applying a new device in the optimization of exponential queueing systems[J].Operation research,1975,23:687-710.
9MIYASHITA K.Learning scheduling control knowledge through reinforcements[J].International Transactions in Operational Research,2000,7(2):125-138.
10PINEDO M.Scheduling:theory,algorithms,and systems[M].2nd ed.Upper Saddle River,N.J.,USA:Prentice Hall,2002.

引证文献2

1王颖,李茂青.基于一种新的评价指标的可重入生产系统调度[J].系统工程,2005,23(12):39-43. 被引量：1
2张智聪,郑力,翁小华.基于增强学习的平行机调度研究[J].计算机集成制造系统,2007,13(1):110-116. 被引量：3

二级引证文献4

1陈晓慧,张启忠.可重入式生产车间调度的计算机仿真与优化研究[J].计算机科学,2009,36(9):297-299. 被引量：2
2张智聪,郑力,胡开顺,赵少勇,李帅,黄辉宇.基于二元增强学习架构的可重构制造系统调度[J].现代制造工程,2011(12):45-51.
3Ling Wang,Zixiao Pan,Jingjing Wang.A Review of Reinforcement Learning Based Intelligent Optimization for Manufacturing Scheduling[J].Complex System Modeling and Simulation,2021,1(4):257-270. 被引量：20
4郭羽含,李津宁,沈学利.波动需求库存路径问题的持续自学习求解算法[J].计算机集成制造系统,2024,30(4):1487-1505. 被引量：1

1赵丽娜,郑应平.开环可重入生产系统的排队网络模型及求解算法[J].控制与决策,2000,15(2):181-185. 被引量：2
2王中杰,吴启迪.半导体生产线控制与调度研究[J].计算机集成制造系统-CIMS,2002,8(8):607-611. 被引量：25
3吕廷杰,■根哲哉,高橋豊,长谷川利治.电路交换网流量分配的马氏决策过程解法[J].通信学报,1993,14(1):101-106. 被引量：2
4费洪海,章国安,范盛超.认知无线Mesh网中基于马氏决策模型的MAC协议[J].电视技术,2012,36(17):114-118. 被引量：1
5穆瑞勇,韦鑫余.基于博弈论的无线通信抗干扰动态跳频和传输速率适配算法[J].现代电子技术,2016,39(9):15-21. 被引量：2
6侯国涛,韩慧,胡俊.基于部分可观察马氏决策过程的频谱接入方法[J].电波科学学报,2013,28(3):553-558. 被引量：2
7单甘霖,张子宁.面向目标跟踪的单平台主被动传感器长期调度[J].系统工程与电子技术,2014,36(3):458-463. 被引量：7
8Quan-xin ZHU.Average Sample-path Optimality for Continuous-time Markov Decision Processes in Polish Spaces[J].Acta Mathematicae Applicatae Sinica,2011,27(4):613-624.
9肖闽进.通信网流量分配的马氏决策及策略改善迭代计算[J].常州工学院学报,2001,14(4):34-37.

信息与控制

2001年第3期

浏览历史

内容加载中请稍等...

可重入生产系统的递阶增强型学习调度被引量：2

参考文献4

共引文献3

同被引文献25

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

可重入生产系统的递阶增强型学习调度 被引量：2

参考文献4

共引文献3

同被引文献25

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

可重入生产系统的递阶增强型学习调度被引量：2