基于Q-学习的动态单机调度被引量：11

Q-Learning Based Dynamic Single Machine Scheduling

下载PDF

导出

摘要针对当前基于Q-学习的Agent生产调度优化研究甚少的现状,利用Q-学习对动态单机调度问题在3种不同系统目标下的调度规则动态选择问题进行了研究.在建立Q-学习与动态单机调度问题映射机制的基础上,通过MATLAB实验仿真,对算法性能进行了评价.仿真结果表明,对于不同的系统调度目标,Q-学习能提高Agent的适应能力,达到单一调度规则无法达到的性能,适合基于Agent的动态生产调度环境. Q-learning was applied to a dynamic single-machine scheduling problem. Corresponding to the environment status change and three predefined system performance measurement, the machine agent that is embedded with Q-learning can select an appropriate dispatching rule dynamically. Based on the model between Q-learning and the dynamic single-machine scheduling problem, the performance of Q-learning was evaluated through simulations in MATLABa environment. The simulation results demonstrate that Q-learning can perform well for different system objectives, which is impossible for single dispatching rule. Therefore, Q-learning is promising for application to the agent-based dynamic production scheduling.

作者王世进孙晟周炳海奚立峰

机构地区上海交通大学机械与动力工程学院

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2007年第8期1227-1232,1243,共7页 Journal of Shanghai Jiaotong University

基金国家自然科学基金资助项目(60574054) 2006年新世纪优秀人才支持计划

关键词 Q-学习强化学习动态单机调度调度规则选择 Q-learning reinforcement learning dynamic single machine scheduling dispatching rules selection

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1Shen W M,Wang L H,Hao Q.Agent-based distributed manufacturing process planning and scheduling:A state-of-the-art survey[J].IEEE Transactions on Systems,Man,and Cybernetics-Part C:Applications and Reviews,2006,36(4):563-577.
2Liu J M.Autonomous agents and multi-agent systems:Explorations in learning,self-organization and adaptive computation[M].Singapore:World Scientific,2001.
3李冬梅,陈卫东,席裕庚.基于强化学习的多机器人合作行为获取[J].上海交通大学学报,2005,39(8):1331-1335. 被引量：4
4范波,潘泉,张洪才.一种基于分布式强化学习的多智能体协调方法[J].计算机仿真,2005,22(6):115-117. 被引量：5
5Crites R H,Barto A G.Improving elevator performance using reinforcement learning[C]// Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,1996:1017-1023.
6Aydin M E,Oztemel E.Dynamic job-shop scheduling using reinforcement learning agents[J].Robotics and Autonomous Systems,2000,33:169-178.
7Wang Y C,Usher J M.Application of reinforcement learning for agent-based production scheduling[J].Engineering Applications of Artificial Intelligence,2005,18:73-82.
8魏英姿,赵明扬.资源受限单机动态调度的并行GA算法研究[J].系统仿真学报,2005,17(4):827-830. 被引量：2
9Watkin C,Dayan P.Q-Learning[J].Machine Learning,1992,8:279-292.
10Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:A survey[J].Journal of Artificial Intelligence Research,1996,4:237-285.

二级参考文献21

1贾建强,陈卫东,席裕庚.全自主足球机器人系统关键技术综述[J].上海交通大学学报,2003,37(z1):45-49. 被引量：13
2玄光南程润伟.遗传算法与工程设计[M].北京:科学出版社,2000..
3Andreas S Schulz; Martin Skutella The power of -points in preemptive single machine scheduling [J]. Journal of Scheduling 2002, 5: 121-133.
4Sonke Hartmann. A Competitive Genetic Algorithm for Resource- Constrained Project Scheduling [J]. Naval Research Logistics, 1998, 45: 733-750.
5Miyashita K. Job-Shop Scheduling with Genetic Programming [A]. Proceeding of the Genetic and Evolutionary Computation Conference (GECCO), 2000, 505-512.
6P L Kaelbling, L M Littman, W A Moore. Reinforcement Learning: A survey[J]. Journal of Artificial Intelligence Research, 1996, 4: 237-285.
7R Bellman.Dynamic Programming: deterministic and stochastic models[M].Prentice-Hall, Englewood Cliffs, NJ, 1957.
8R A Howard. Dynamic Programming and Markov progress[M].Springer-Verlag, 1960.
9C J C H Watkons and P Dayan. Q-leanign[J]. Machine Learning, 1992, 8(3): 279-292.
10Nicolescu M, Mataric M J. Learning and interacting in human-robot domains [J].Socially Intelligent Agents, 2001, 31(5):419-430.

共引文献8

1刘飞,杨明,孙国兵,王子才.分布式仿真系统验证工具设计与开发[J].江苏大学学报（自然科学版）,2006,27(3):258-261. 被引量：1
2陶泽,肖田元,郝长中.双资源JSP动态分类调度研究[J].系统仿真学报,2008,20(9):2243-2246. 被引量：1
3张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
4马军,殷保群.基于POMDP模型的机器人行动的仿真优化[J].系统仿真学报,2008,20(21):5903-5906.
5王义萍,陈庆伟,胡维礼.机器人行为选择机制综述[J].机器人,2009,31(5):472-480. 被引量：9
6张晓勇,彭军,李哲琴.多智能体系统中子域适应度评估的合作协进化协作[J].中南大学学报（自然科学版）,2010,41(2):572-577. 被引量：1
7文永明,李博研,张宁宁,李小建,熊楚依,刘洁玺.基于深度强化学习的多智能体编队协同控制[J].指挥信息系统与技术,2023,14(5):75-79. 被引量：1
8于震,吴剑林,李怀,李立.多智能体控制系统在建筑能源与环境控制领域的应用综述[J].暖通空调,2024,54(6):1-12.

同被引文献115

1张毅,姚富强.基于可靠性的抗干扰通信网性能仿真[J].系统仿真学报,2004,16(5):967-970. 被引量：4
2魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
3杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
4魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
5姚富强,张少元.一种跳码直扩通信技术体制探讨[J].国防科技大学学报,2005,27(5):52-55. 被引量：7
6包振强,李长仪,周鑫.基于知识的动态调度决策机制研究[J].中国机械工程,2006,17(13):1366-1370. 被引量：10
7陈宗海,文锋.基于复杂过程简化模型的DHP学习控制[J].控制与决策,2006,21(10):1087-1091. 被引量：2
8严洪森.新的先进制造模式知识表示方法[J].机械工程学报,2006,42(10):80-90. 被引量：12
9张智聪,郑力,翁小华.基于增强学习的平行机调度研究[J].计算机集成制造系统,2007,13(1):110-116. 被引量：3
10高彬,郭庆丰.BP神经网络在电子战效能评估中的应用[J].电光与控制,2007,14(1):69-71. 被引量：21

引证文献11

1王国磊,钟诗胜,林琳.基于聚类状态隶属度的动态调度Q-学习[J].高技术通讯,2009,19(4):428-433. 被引量：8
2王国磊,林琳,钟诗胜.基于模糊聚类的Q-学习在动态调度中的应用[J].计算机集成制造系统,2009,15(4):751-757. 被引量：1
3王国磊,钟诗胜,林琳.面向多机动态调度问题的两层Q学习算法[J].智能系统学报,2009,4(3):239-244. 被引量：1
4王世进.面向制造任务动态分配的改进合同网机制[J].计算机集成制造系统,2011,17(6):1257-1263. 被引量：7
5汪浩祥,严洪森.基于多Agent可互操作知识化制造动态自适应调度策略[J].控制与决策,2013,28(2):161-168. 被引量：10
6汪浩祥,严洪森.基于SAUBQ学习的知识化制造系统自适应调度策略[J].系统工程理论与实践,2014,34(7):1885-1894. 被引量：3
7李云杰,朱云鹏,高梅国.基于Q-学习算法的认知雷达对抗过程设计[J].北京理工大学学报,2015,35(11):1194-1199. 被引量：31
8徐长月,黄高明,侯小阳.应答式干扰下基于Q学习算法的跳频系统信道调度方法[J].电讯技术,2017,57(12):1451-1456. 被引量：4
9徐翔斌,李志鹏.强化学习在运筹学的应用:研究进展与展望[J].运筹与管理,2020,29(5):227-239. 被引量：11
10Ling Wang,Zixiao Pan,Jingjing Wang.A Review of Reinforcement Learning Based Intelligent Optimization for Manufacturing Scheduling[J].Complex System Modeling and Simulation,2021,1(4):257-270. 被引量：14

二级引证文献92

1赵永叶,贲树军.学习马尔可夫模型的低秩谱估计算法[J].数学进展,2023,52(4):741-755.
2张龙,刘民,刘涛,吴澄.复杂产品开发项目调度问题的模糊优化算法[J].控制工程,2009,16(6):731-734. 被引量：1
3徐赐军,李爱平,刘雪梅.弹性资源约束的动态调度决策[J].控制与决策,2011,26(3):332-338. 被引量：5
4李文超,严洪森.基于链约束的Job-Shop型知识化制造单元自进化算法[J].计算机集成制造系统,2012,18(9):1911-1920.
5汪浩祥,严洪森.基于多Agent可互操作知识化制造动态自适应调度策略[J].控制与决策,2013,28(2):161-168. 被引量：10
6丁彬楚,汤洪涛.面向作业车间重调度的改进合同网机制研究[J].机电工程,2013,30(2):147-151.
7谢科,李琪.基于Multi-Agent的大学生体育训练管理决策系统研究与设计[J].计算机与数字工程,2013,41(7):1103-1105. 被引量：5
8严珍珍,邢立宁,陈英武.求解任务分配问题的带有推荐功能的蚁群算法[J].计算机集成制造系统,2013,19(9):2220-2228. 被引量：5
9刘久义,李博,王克勤.基于制造能力和角色的航天制造装备递阶配置方法[J].机械制造,2013,51(1):85-87.
10赵良辉.无拍卖的动态Agent调度模型[J].计算机集成制造系统,2013,19(11):2893-2899. 被引量：6

1张建军,张少静,张利.柔性制造系统动态调度优化建模研究[J].现代制造技术与装备,2008,44(2):15-18.
2黄文杰,汪峥.单件生产系统的启发式动态调度算法[J].工业控制计算机,2015,28(4):129-130. 被引量：1
3戴冬,解瑞云.协同遗传算法和多Agent系统的生产调度优化[J].河南机电高等专科学校学报,2014,22(4):26-29.
4李立清,路海,李旭东.基于协同管理的单件小批生产管理系统的实现[J].制造业自动化,2011,33(17):28-29.
5杨欣,陈谋,费树岷.资源配置混杂Petri网的混杂系统生产过程动态调度[J].控制理论与应用,2011,28(2):173-178. 被引量：5

上海交通大学学报

2007年第8期

浏览历史

内容加载中请稍等...

基于Q-学习的动态单机调度被引量：11

参考文献10

二级参考文献21

共引文献8

同被引文献115

引证文献11

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

基于Q-学习的动态单机调度 被引量：11

参考文献10

二级参考文献21

共引文献8

同被引文献115

引证文献11

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

基于Q-学习的动态单机调度被引量：11