-
题名基于增强学习的平行机调度研究
被引量:3
- 1
-
-
作者
张智聪
郑力
翁小华
-
机构
清华大学工业工程系
南佛罗里达大学工业与管理系统工程系
-
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2007年第1期110-116,共7页
-
基金
国家自然科学基金资助项目(50375082)。~~
-
文摘
尝试运用增强学习方法来研究平行机调度问题,通过定义系统状态、行为和报酬函数,把调度问题转化为平均报酬型半马尔可夫决策过程,并使用结合函数泛化器的R-Learning算法来解决。提出排名算法,并利用它和两种常用的调度规则(最短期望加工时间规则和先进先出规则)来定义增强学习的行为。实验结果表明,R-Learning算法通过仿真实验学习较优的调度策略,在不同的决策状态下选择最优或次优的行为,对每个测试问题的效果都优于以上任何一条调度规则。
-
关键词
调度
平行机
增强学习
马尔可夫决策过程
-
Keywords
scheduling
parallel machines
reinforcement learning
Markov decision process
-
分类号
O223
[理学—运筹学与控制论]
-
-
题名优化加权平均流程时间的平行机调度
- 2
-
-
作者
张智聪
郑力
翁小华
-
机构
广东东莞理工学院机电工程系
清华大学工业工程系
南佛罗里达大学工业与管理系统工程系
-
出处
《现代制造工程》
CSCD
2007年第9期17-21,61,共6页
-
基金
国家自然科学基金资助项目(50375082)
-
文摘
平行机调度问题在工业界有着广泛应用,实际生产中瓶颈工序的调度很多属于这类问题。运用增强学习算法来研究以最小化作业的加权平均滞留时间为目标的动态平行机调度问题Qm|rj,sjk,Mj|∑wjfj,考虑与作业顺序相关的转换时间和机器-作业资格约束。为了把调度问题转化为增强学习问题,定义了系统状态的表示方式,利用加权最短加工时间优先(WSPT)规则、Weng算法、排名(RA)算法和LFJ-RA(Least Flexible Job-Ranking Algorithm)算法构造行为,定义了与调度目标函数等价的报酬函数,并采用结合函数泛化器的Q学习算法来解决。实验表明Q学习算法对每个测试问题的调度结果都优于WSPT规则、排名算法、LFJ-RA算法和Weng算法。
-
关键词
调度
平行机
Q学习
-
Keywords
Scheduling
Parallel machine
Q-Learning
-
分类号
O223
[理学—运筹学与控制论]
-
-
题名基于增强学习的半导体测试调度研究
被引量:2
- 3
-
-
作者
张智聪
郑力
翁小华
-
机构
广东东莞理工学院工业工程系
清华大学工业工程系
南佛罗里达大学工业与管理系统工程系
-
出处
《工业工程与管理》
北大核心
2009年第4期38-44,59,共8页
-
基金
国家自然科学基金(70771058)
国家自然科学基金(50375082)
国家863计划资助项目(2008AA04Z102)
-
文摘
采用Sarsa(λ,k)学习算法求解、产品、测试机、测试工具包、使能器部件对应关系非常复杂的半导体测试调度问题。针对测试调度,通过定义系统状态的表示方式、构造行为和报酬函数把调度问题转化为增强学习问题,并把Sarsa(λ,k)算法和梯度下降径向基神经网络函数泛化器结合使用。实验验证了Sarsa(λ,k)算法解决半导体测试调度问题的有效性。Sarsa(λ,k)算法通过反复解决调度问题来调整调度策略,能克服单个行为策略短视的缺点,综合利用各个行为策略的优点,从而找到较优的调度方案。
-
关键词
调度
半导体测试
增强学习
多资源约束
-
Keywords
scheduling
semiconductor test
reinforcement learning
resource constraint
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-