期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于增强学习的平行机调度研究 被引量:3
1
作者 张智聪 郑力 翁小华 《计算机集成制造系统》 EI CSCD 北大核心 2007年第1期110-116,共7页
尝试运用增强学习方法来研究平行机调度问题,通过定义系统状态、行为和报酬函数,把调度问题转化为平均报酬型半马尔可夫决策过程,并使用结合函数泛化器的R-Learning算法来解决。提出排名算法,并利用它和两种常用的调度规则(最短期望加... 尝试运用增强学习方法来研究平行机调度问题,通过定义系统状态、行为和报酬函数,把调度问题转化为平均报酬型半马尔可夫决策过程,并使用结合函数泛化器的R-Learning算法来解决。提出排名算法,并利用它和两种常用的调度规则(最短期望加工时间规则和先进先出规则)来定义增强学习的行为。实验结果表明,R-Learning算法通过仿真实验学习较优的调度策略,在不同的决策状态下选择最优或次优的行为,对每个测试问题的效果都优于以上任何一条调度规则。 展开更多
关键词 调度 平行机 增强学习 马尔可夫决策过程
下载PDF
优化加权平均流程时间的平行机调度
2
作者 张智聪 郑力 翁小华 《现代制造工程》 CSCD 2007年第9期17-21,61,共6页
平行机调度问题在工业界有着广泛应用,实际生产中瓶颈工序的调度很多属于这类问题。运用增强学习算法来研究以最小化作业的加权平均滞留时间为目标的动态平行机调度问题Qm|rj,sjk,Mj|∑wjfj,考虑与作业顺序相关的转换时间和机器-作业资... 平行机调度问题在工业界有着广泛应用,实际生产中瓶颈工序的调度很多属于这类问题。运用增强学习算法来研究以最小化作业的加权平均滞留时间为目标的动态平行机调度问题Qm|rj,sjk,Mj|∑wjfj,考虑与作业顺序相关的转换时间和机器-作业资格约束。为了把调度问题转化为增强学习问题,定义了系统状态的表示方式,利用加权最短加工时间优先(WSPT)规则、Weng算法、排名(RA)算法和LFJ-RA(Least Flexible Job-Ranking Algorithm)算法构造行为,定义了与调度目标函数等价的报酬函数,并采用结合函数泛化器的Q学习算法来解决。实验表明Q学习算法对每个测试问题的调度结果都优于WSPT规则、排名算法、LFJ-RA算法和Weng算法。 展开更多
关键词 调度 平行机 Q学习
下载PDF
基于增强学习的半导体测试调度研究 被引量:2
3
作者 张智聪 郑力 翁小华 《工业工程与管理》 北大核心 2009年第4期38-44,59,共8页
采用Sarsa(λ,k)学习算法求解、产品、测试机、测试工具包、使能器部件对应关系非常复杂的半导体测试调度问题。针对测试调度,通过定义系统状态的表示方式、构造行为和报酬函数把调度问题转化为增强学习问题,并把Sarsa(λ,k)算法和梯度... 采用Sarsa(λ,k)学习算法求解、产品、测试机、测试工具包、使能器部件对应关系非常复杂的半导体测试调度问题。针对测试调度,通过定义系统状态的表示方式、构造行为和报酬函数把调度问题转化为增强学习问题,并把Sarsa(λ,k)算法和梯度下降径向基神经网络函数泛化器结合使用。实验验证了Sarsa(λ,k)算法解决半导体测试调度问题的有效性。Sarsa(λ,k)算法通过反复解决调度问题来调整调度策略,能克服单个行为策略短视的缺点,综合利用各个行为策略的优点,从而找到较优的调度方案。 展开更多
关键词 调度 半导体测试 增强学习 多资源约束
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部