基于深度强化学习的节能工艺路线发现方法

Energy-saving process route discovery method based on deep reinforcement learning

下载PDF

导出

摘要由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立节能工艺路线模型,并将加工环境动态变化的节能工艺路线规划问题,转化为DQN智能体决策问题,利用决策经验的可复用性和可扩展性,进行求解,同时为了提高DQN的收敛速度和解的质量,提出了基于S函数探索机制和加权经验池,并使用了双Q网络。仿真结果表明,相比较改进前,改进后的算法在动态加工环境中能够更快更好地发现节能工艺路线;与遗传算法、模拟退火算法以及粒子群算法相比,改进后的算法不仅能够以最快地速度发现节能工艺路线,而且能得到相同甚至更高精度的解。 Due to the traditional process route formulation rules based on the fixed processing environment,it is unable to quickly respond to the dynamic changes of the processing environment to formulate energy-saving process routes.Therefore,an energy-saving process route discovery method based on deep Q network(DQN)is proposed in this paper.Based on the Markov decision process,we define the state vector,action space,and reward function,establish an energy-saving process route model,and transform the energy-saving process route planning problem with dynamic changes in the processing environment into a DQN agent decision-making problem,which uses the reusable and extensible decision-making experience to solve the problem.At the same time,an exploration mechanism based on the S function,a weighted experience pool,and a double-Q network are used to improve the convergence speed and solution quality of DQN.The simulation results show that compared with that before improvement,the improved algorithm can find energy-saving process routes faster and better in the dynamic processing environment;and compared with genetic algorithm,simulated annealing algorithm,as well as particle swarm algorithm,the improved algorithm can not only discover energy-saving process routes at the fastest speed,but also obtain the same or even higher precision solutions.

作者陶鑫钰王艳纪志成 TAO Xinyu;WANG Yan;JI Zhicheng(China Key Laboratory of Advanced Process Control for Light Industry Ministry of Education,Jiangnan University,Wuxi 214122,China;School of the Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)

机构地区江南大学轻工过程先进控制教育部重点实验室江南大学物联网工程学院

出处《智能系统学报》 CSCD 北大核心 2023年第1期23-35,共13页 CAAI Transactions on Intelligent Systems

基金国家重点研发计划项目(2018YFB1701903)。

关键词深度强化学习深度Q网络动态加工环境工艺路线马尔可夫决策过程智能体决策双Q网络启发式算法 deep reinforcement learning deep Q network dynamic machining environment process planning Markov decision process agent decision making double Q network heuristic algorithm

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1陈科胜,鲜思东,郭鹏.求解旅行商问题的自适应升温模拟退火算法[J].控制理论与应用,2021,38(2):245-254. 被引量：42
2何庆,吴意乐,徐同伟.改进遗传模拟退火算法在TSP优化中的应用[J].控制与决策,2018,33(2):219-225. 被引量：131
3施伟,冯旸赫,程光权,黄红蓝,黄金才,刘忠,贺威.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623. 被引量：52
4王云鹏,郭戈.基于深度强化学习的有轨电车信号优先控制[J].自动化学报,2019,45(12):2366-2377. 被引量：16
5吴晓光,刘绍维,杨磊,邓文强,贾哲恒.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2021,47(8):1976-1987. 被引量：27

二级参考文献57

1陈小刚,林大键,孙国良.模拟退火法及其收敛性[J].光电工程,1993,20(3):12-18. 被引量：3
2孙力娟,王良俊,王汝传.改进的蚁群算法及其在TSP中的应用研究[J].通信学报,2004,25(10):111-116. 被引量：38
3张长胜,孙吉贵,欧阳丹彤.一种自适应离散粒子群算法及其应用研究[J].电子学报,2009,37(2):299-304. 被引量：74
4乔彦平,张骏.基于一种改进遗传模拟退火算法的TSP求解[J].计算机仿真,2009,26(5):205-208. 被引量：26
5王银年,葛洪伟.求解TSP问题的改进模拟退火遗传算法[J].计算机工程与应用,2010,46(5):44-47. 被引量：32
6吴庆洪,张纪会,徐心和.具有变异特征的蚁群算法[J].计算机研究与发展,1999,36(10):1240-1245. 被引量：306
7王忠英,白艳萍,岳利霞.经过改进的求解TSP问题的蚁群算法[J].数学的实践与认识,2012,24(4):133-140. 被引量：14
8ZHAO Jie WU XiaoGuang ZANG XiZhe YAN JiHong.Analysis of period doubling bifurcation and chaos mirror of biped passive dynamic robot gait[J].Chinese Science Bulletin,2012,57(14):1743-1750. 被引量：4
9周永权,黄正新,刘洪霞.求解TSP问题的离散型萤火虫群优化算法[J].电子学报,2012,40(6):1164-1170. 被引量：80
10舒波,李大铭,赵新良.基于强化学习算法的公交信号优先策略[J].东北大学学报（自然科学版）,2012,33(10):1513-1516. 被引量：4

共引文献258

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2谢聪.求解TSP问题的改进离散蝴蝶优化算法[J].数学的实践与认识,2020,0(1):173-182. 被引量：7
3何世鹏,金世俊.结合蚁群算法和萤火虫算法的无人船路径规划[J].电子测量技术,2023,46(19):82-86. 被引量：1
4何雪,韦波,张晓宇,李景文,康传利,姜建武.一种求解学区划分问题的混合启发式算法[J].测绘科学,2020,45(1):163-170. 被引量：2
5黄麦.无人机在抢险救灾中的数量与路径优化[J].中国科技纵横,2018,0(15):240-241.
6徐精彩,郭兴明,邓军,文虎.煤层火灾耐温高水胶体直接灭火技术[J].煤炭科学技术,2000,28(3):4-6. 被引量：4
7何聪,郭松涛.可充电无线传感器网络的有向充电优化算法[J].重庆大学学报（自然科学版）,2019,42(1):88-97. 被引量：3
8薛永生,吴立尧.基于模拟退火的改进粒子群算法研究及应用[J].海军航空工程学院学报,2018,33(2):248-252. 被引量：13
9王娜,陈贤富.变参数深度玻尔兹曼计算模型研究[J].信息技术与网络安全,2018,37(6):68-71.
10陈成.基于改进遗传算法的物流车辆路径问题优化[J].信息技术与信息化,2018(9):41-43. 被引量：6

1戴禹,王成恩,柳伟.涡轮叶片参数化建模技术研究与系统开发[J].机电一体化,2022(4):35-40.
2胡志刚,朱海亚,刘利香,石磊,刘浏,张贺.60 t LF节能工艺优化研究及应用[J].特殊钢,2023,44(1):30-33.
3彭波,侯悦.中国特色元宇宙的现状与展望[J].时代人物,2023(3):65-67.
4陈明明.国土空间规划中的农业空间规划内容体系及传导初探[J].中国科技期刊数据库工业A,2022(12):4-6.
5李丹丹.国土空间规划背景下城市建设用地布局规划研究[J].中文科技期刊数据库（引文版）工程技术,2022(11):9-12.
6余惠红.以养正课程为载体,落实规则意识形成[J].中小学班主任,2023(2):43-45.
7王华彪,任路伟.以大数据提升思政课教学管理科学化水平[J].中学政治教学参考,2022(47):84-87. 被引量：3
8肖荻昱.西方国家官办智库参与政府决策经验[J].领导文萃,2021(4):28-30.
9顾海华,胡兴柳,毛军辉.基于ADAMS与MATLAB的6R机器人运动学分析与轨迹规划联合仿真[J].盐城工学院学报（自然科学版）,2022,35(4):62-68. 被引量：2
10杨晓霞,王翠珍,张芳,任秀芳.计及励磁系统的同步电机时步有限元模型研究[J].大电机技术,2023(1):21-29.

智能系统学报

2023年第1期

浏览历史

内容加载中请稍等...

基于深度强化学习的节能工艺路线发现方法

参考文献5

二级参考文献57

共引文献258

相关作者

相关机构

相关主题

浏览历史