一种基于修正机制和强化学习的作业车间调度问题的优化算法被引量：2

Optimization Algorithms for Job Shop Scheduling Problems Based on Correction Mechanisms and Reinforcement Learning

下载PDF

导出

摘要近年来,使用深度强化学习解决作业车间调度问题的研究主要集中于构造法,通过将作业车间调度问题视为顺序决策问题,逐步选择调度节点从而得到完整的解。尽管这种算法思想已经取得了不小的成果,但仍面临奖励构造困难、解决方案质量不高的问题,因此这一方法的发展受到制约。针对这些问题,设计了一种基于图神经网络和近端策略优化算法的强化学习构造框架。同时,针对因训练与测试数据分布不一致而带来的次优解问题,还设计了一种修正交换算子,以保证解的质量。最后,为了证明算法的有效性,在公开数据集和生成的数据集上进行了实验。实验结果表明,所提算法在中小规模实例上的结果优于目前最好的强化学习框架,不仅充分发挥了构造式强化学习框架求解迅速的优势,还通过修正机制有效缓解了次优选择问题,缩短了实例的最大完成时间。 In recent years,research on using deep reinforcement learning to solve job shop scheduling problems has concentrated on construction techniques,which model the scheduling problem as sequential choice problems and gradually select scheduling nodes for a complete solution.Although this algorithmic theory has produced impressive results,it still suffers from complicated reward formulation and poor solution quality,which prevents its future development.In this study,we design a reinforcement learning construction framework based on graphical neural networks and proximal policy optimisation algorithms,and an innovative and efficient search correction mechanism with a modified swap operator is proposed to enhance the solution quality.It searches the area around a known solution using a Monte Carlo tree,correcting the issue of suboptimal solution selection caused by the discrepancy between training and testing data.The proposed algorithm is comprehensively investigated on public and synthetic datasets.Experimental results demonstrate that the algorithm outperforms the state-of-the-art reinforcement learning framework on both small and medium-sized examples.It not only fully exploits the advantages of rapid solution of constructive reinforcement learning framework,but also effectively corrects the sub-optimal choice through the correction mechanism,reducing the maximum completion time in worst cases.

作者苗宽李崇寿 MIAO Kuan;LI Chongshou(School of Artificial Intelligence and Computing,Southwest Jiaotong University,Chengdu 610097,China;SWJTU-Leeds Joint School,Southwest Jiaotong University,Chengdu 610097,China)

机构地区西南交通大学计算机与人工智能学院西南交通大学利兹学院

出处《计算机科学》 CSCD 北大核心 2023年第6期274-282,共9页 Computer Science

基金国家自然科学基金(62202395) 四川省自然科学基金(2022NSFSC0930) 中央高校基本科研业务费专项资金(2682022CX067) 四川省重点研发项目(2022YFG0028)。

关键词调度作业车间调度问题强化学习修正搜索算法 Scheduling Job shop scheduling problems Reinforcement learning Modified search algorithms

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献15

1黄肖玲,杨焕熙,魏俊秀.基于过滤束的转移瓶颈算法在JSSP中的应用[J].计算机科学,2009,36(4):254-256. 被引量：1
2左益,公茂果,曾久琳,焦李成.混合多目标算法用于柔性作业车间调度问题[J].计算机科学,2015,42(9):220-225. 被引量：7
3杨悦,王丹,胡博,王鹤,罗桓桓.基于改进多智能体Q学习的多源最优联合调频控制策略研究[J].电力系统保护与控制,2022,50(7):135-144. 被引量：11
4刘芳,汤永利.基于反馈协作的无线传感器网络数据传输研究[J].计算机仿真,2022,39(5):375-379. 被引量：8
5彭艺,唐剑,杨青青,李睿.基于强化学习的应急无人机通信中继选择策略[J].电子测量与仪器学报,2022,36(7):9-15. 被引量：10
6张明明,刘文盼,宋浒,夏飞.基于密度聚类算法的电力通信监测分析[J].自动化仪表,2022,43(11):73-78. 被引量：8
7赵素萍,杜永文.基于粒子群算法的无线传感网络中继节点选择策略[J].传感技术学报,2022,35(12):1712-1716. 被引量：3
8李旭杰,刘春燕,孙颖.面向蜂窝网络的D2D多播通信的分簇和中继选择方法[J].电子与信息学报,2023,45(2):488-496. 被引量：4
9衣俊洁,刘蕾.基于NOMA协作车联网系统中的联合中继选择和功率控制[J].新型工业化,2022,12(11):108-112. 被引量：1
10尹依伊,王晓芳,周健.基于Q学习的多无人机协同航迹规划方法[J].兵工学报,2023,44(2):484-495. 被引量：7

引证文献2

1陈雅莉,潘友林,刘耿耿.基于离散变邻域蜉蝣优化的装配作业车间调度算法[J].计算机科学,2024,51(9):283-289.
2欧宇航,胡明辉.无人机电力巡检通信最佳协作中继选择方法研究[J].自动化仪表,2024,45(10):70-74.

1李丹丹.基于混合式启发的云计算任务调度算法[J].安阳工学院学报,2023,22(2):74-77. 被引量：1
2牛凯,吴泊霖,戴金晟,王森,袁弋非.面向6G的极化编码调制[J].北京邮电大学学报,2022,45(6):1-11. 被引量：2
3殷铭.新型插秧机的三维虚拟仿真设计与试验[J].农机化研究,2023,45(7):112-116. 被引量：2
4易焕龙,李浩光.线性中等软位势朗道方程的Gelfand-Shilov光滑效应[J].中南民族大学学报（自然科学版）,2023,42(3):420-424.
5何美玲,魏志秀,武晓晖,彭永涛.基于改进蚁群算法求解带软时间窗的车辆路径问题[J].计算机集成制造系统,2023,29(3):1029-1039. 被引量：6
6吕云婕,王雨.认罪认罚案件中检察机关有限反悔权探讨[J].铁道警察学院学报,2023,33(1):64-70.
7郑泽奋,李明政,洪婉君,郑妙静,方鑫,徐锦明,罗海燕.中小规模水产养殖户发展探究[J].广东蚕业,2023,57(4):53-56. 被引量：1
8朱芳阳,游勇.广西对外贸易、现代物流和经济发展关系研究——基于VECM模型的实证分析[J].商业经济,2023(5):150-153.
9李长云,李霆誉,王志兵,谷鹏飞,林多.基于多目标优化的改进遗传算法求解柔性车间调度问题[J].制造技术与机床,2023(5):173-178. 被引量：4
10阮景波.畜牧养殖自动化上料技术的应用[J].河北农机,2023(8):24-26.

计算机科学

2023年第6期

浏览历史

内容加载中请稍等...

一种基于修正机制和强化学习的作业车间调度问题的优化算法被引量：2

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于修正机制和强化学习的作业车间调度问题的优化算法 被引量：2

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于修正机制和强化学习的作业车间调度问题的优化算法被引量：2