基于PPO算法的旅行商问题求解模型被引量：1

A Traveling Salesman Problem Solver Based on Proximal Policy Optimization

下载PDF

导出

摘要旅行商问题,即TSP(Traveling Salesman Problem)问题,是经典计算模型中的NP-hard问题。也因为其为NP-hard,所以从理论上来说目前并没有多项式时间的算法可以快速计算出给定图的实例所对应的TSP旅行路线,即tour。近些年来,对于小规模的图(顶点数不超过100,称为TSP100),人们提出了基于神经网络模型的方法去计算出tour。特别的,在[Kwon等人,NIPS 2020]中,Kwon等人提出了POMO(Policy Optimization with Multiple Optima)模型,对TSP100问题可以给出接近目前启发式策略所能获得的最短tour,且相应的计算时间相比较于启发式策略加快了近一个数量级。本文基于PPO(Proximal Policy Optimization)算法,对该模型进行了微调(fine-tune),将其在TSP100相关的测试集上的平均tour长度从7.80改进到7.791,而目前不基于学习的启发式算法所能找到最短的平均tour长度为7.76。本文中的结果更加接近于目前的最好结果,但相比启发式策略,得到结果的时间大大缩短。 The Traveling Salesman Problem(TSP) is an NP-hard problem in the classic computational model. As it is NP-hard, theoretically, there does not exist any polynomial algorithm for it. So for a given graph instance, we cannot get the TSP tour efficiently. In recent years, for graphs of moderate size(the number of vertices is no greater than 100, referred to as TSP 100), there are models proposed based on neural networks. Especially in [Kwon et al., NIPS 2020], Kwon et al. proposed POMO(Policy Optimization with Multiple Optima), which gives nearly identical shortest tours compared with those results achieved by heuristic approaches. Also, the inference time is sped up by more than an order of magnitude, compared with heuristic algorithms. Here in the paper, we proposed a training method based on PPO(Proximal Policy Optimization), which fine-tunes over the POMO model, improving the average tour length from 7.80 to 7.791. At the same time, the best result so far obtained by algorithms based on heuristic and not learning-based achieves the tour length of 7.76. The result in the paper is closer to this best result. Also, compared to heuristic approaches, the time to get the tour is much less.

作者贝世之严嘉钰章乐 BEI Shizhi;YAN Jiayu;ZHANG Le(Beijing Electronic Science and Technology Institute,Beijing 100070,P.R.China)

机构地区北京电子科技学院

出处《北京电子科技学院学报》 2021年第4期88-95,共8页 Journal of Beijing Electronic Science And Technology Institute

基金中央高校基本科研业务费项目328201904资助。

关键词旅行商问题强化学习策略梯度算法 traveling salesman problem reinforcement learning policy optimization algorithms

分类号 TM344.1 [电气工程—电机]

引文网络
相关文献

参考文献1

1周建军,詹芹.回溯法与分支限界法的用法取向探讨[J].九江学院学报,2009,28(3):18-20. 被引量：4

二级参考文献1

1巫小蓉,李霞.《计算机算法设计与分析》教学经验浅谈[J].广西大学梧州分校学报,2004,14(3):71-73. 被引量：7

共引文献3

1刘铝,常炳国.回溯算法在制丝生产线自动排产中的应用[J].计算机系统应用,2011,20(2):186-188. 被引量：7
2温雪岩,李鹏程,陈家男,朱泳,吴晓峰.优化BP神经网络算法在油茶产量预测中的应用[J].东北林业大学学报,2016,44(10):56-60. 被引量：2
3滕丽丽.一种基于分层结构的组卷算法研究[J].中国高新技术企业,2010(24):32-34.

同被引文献10

1朱志广,王永.基于高斯噪声扰动的随机梯度法的设计与应用[J].电子技术（上海）,2021,50(8):4-7. 被引量：2
2樊龙涛,张森,普杰信,刘源源.基于异环境重要性采样的增强DDRQN网络[J].火力与指挥控制,2020,45(1):47-52. 被引量：1
3秦智慧,李宁,刘晓彤,刘秀磊,佟强,刘旭红.无模型强化学习研究综述[J].计算机科学,2021,48(3):180-187. 被引量：28
4杜嘻嘻,程华,房一泉.基于优势演员-评论家算法的强化自动摘要模型[J].计算机应用,2021,41(3):699-705. 被引量：6
5孙凤霄,孙仁诚.基于KL散度的波形对齐算法[J].信息技术与信息化,2021(5):103-105. 被引量：3
6周江卫,关亚兵,白万民,刘白林.一种二次采样的强化学习方法[J].西安工业大学学报,2021,41(3):345-351. 被引量：1
7张建行,刘全.基于情节经验回放的深度确定性策略梯度方法[J].计算机科学,2021,48(10):37-43. 被引量：6
8余沁茹,卢桂馥.一种基于最大相关熵和局部约束的协同表示分类器[J].智能科学与技术学报,2021,3(3):334-341. 被引量：1
9李辉,郝如江.相关熵和双谱分析齿轮故障诊断研究[J].振动工程学报,2021,34(5):1076-1084. 被引量：5
10申怡,刘全.基于自指导动作选择的近端策略优化算法[J].计算机科学,2021,48(12):297-303. 被引量：7

引证文献1

1张会珍,王强.基于相关熵诱导度量的近端策略优化算法[J].吉林大学学报（信息科学版）,2023,41(3):437-443.

1王港华.基于遗传算法的小规模TSP问题研究分析[J].物流工程与管理,2022,44(3):111-114. 被引量：6
2合续环境正式发布城市贝斯TUNE[J].水工业市场,2021(1):64-64.
3彭学虎.液态轴承球馆在GE Optima系列CT中的应用及维护[J].智慧健康,2021,7(25):172-178.
4韩舒宁,徐敏,董学士,林青,沈凡凡.混合伊藤算法求解多尺度着色旅行商问题[J].计算机应用,2022,42(3):695-700. 被引量：3
5程亚南,王晓峰,刘凇佐,刘子琳,张九龙.一种求解TSP问题的海鸥算法[J].现代电子技术,2022,45(7):112-116. 被引量：1
6徐伟华,魏传祥,张根瑞,赵彩梅,熊坚.基于K-近邻域搜索的遗传算法求解旅行商问题[J].昆明理工大学学报（自然科学版）,2022,47(1):139-146. 被引量：8
7邹适宇,李复名,谢爱平,周涛,刘鹏.基于改进烟花算法的资源分配[J].航空学报,2021,42(12):258-266. 被引量：7
8崔允汀,何胜学.公平性指派问题及其进化求解算法[J].运筹与模糊学,2022,12(1):16-25.
9梁煜东,陈峦,张国洲,任曼曼,胡维昊.基于深度强化学习的多能互补发电系统负荷频率控制策略[J].电工技术学报,2022,37(7):1768-1779. 被引量：19
10薛杨上,李泽平,陈仁康.基于双向拍卖的流媒体资源交易模型[J].计算机工程与设计,2022,43(1):57-65.

北京电子科技学院学报

2021年第4期

浏览历史

内容加载中请稍等...

基于PPO算法的旅行商问题求解模型被引量：1

参考文献1

二级参考文献1

共引文献3

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于PPO算法的旅行商问题求解模型 被引量：1

参考文献1

二级参考文献1

共引文献3

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于PPO算法的旅行商问题求解模型被引量：1