摘要
对平均报酬型马氏决策过程 ,本文研究了一种递阶增强型学习算法 ;并将算法应用于一个两台机器组成的闭环可重入生产系统 ,计算机仿真结果表明 ,调度结果优于熟知的两种启发式调度策略 .
In this paper, a hierarchical reinforcement learning algorithm is investigated for Markov Decision Process with average reward. And it is applied to a close re entrant manufacturing system composed of two machines. Computer simulation demonstrates that the algorithm outperforms two well known heuristic scheduling policies.
出处
《信息与控制》
CSCD
北大核心
2001年第3期199-203,共5页
Information and Control
基金
国家重点基础研究发展规划项目!G19980 2 0 3 0 2
西安交通大学机械制造系统工程国家重点实验室资助课题