深度强化学习局部策略迁移方法

Deep Reinforcement Learning Local Policy Transfer Method

下载PDF

导出

摘要【目的】强化学习策略迁移是一条降低深度强化学习训练消耗的有效途径,其中,局部策略迁移是在较小粒度上实现策略的迁移,它对整体策略性能的提升和策略灵活组合形成新整体策略有重要意义。提出了深度强化学习局部策略迁移方法。【方法】借鉴了软件工程中“高内聚,低耦合”的思想,通过对作为策略载体的神经网络进行划分,使得不同子神经网络承载不同局部策略,然后通过对子神经网络的迁移,实现局部策略迁移。该方法支持局部策略灵活替换和组合,形成性能更优秀和适应新环境的新总策略。选取经典深度强化学习算法DQN作为实验算法,对比DQN算法使用本文方法前后的迁移能力和表现性能。【结果】结果表明,DQN算法使用本文方法后实现了局部策略迁移的同时表现性能还提升了约27.5%. 【Purposes】 Reinforcement learning policy transfer is an effective way to reducing the consumption of deep reinforcement learning training. Local policy transfer is policy transfer at a fine-grained level, which is of great significance to the improvement of the global policy performance and the formation of a new global policy by the combination of local policies. Therefore, a deep reinforcement learning method for local policy transfer is proposed. 【Methods】 This method draws on the idea of “high cohesion, low coupling” in software engineering. By dividing the neural network, which is the carrier of policy, different sub-neural networks carry different local policies, and then realize the transfer of local policies through the transfer of sub-neural networks. This method supports flexible replacement and combination of local policies and forms a new global policy with better performance and adaption to new environment. In this paper, the classical deep reinforcement learning algorithm DQN is selected as the experimental algorithm and the transfer ability and performance of DQN algorithm before and after using the proposed method are compared. 【Findings】 The results show that the DQN algorithm realizes local policy transfer and improves its performance by about 27.5% after using the proposed method.

作者史腾飞王莉臧嵘 SHI Tengfei;WANG Li;ZANG Rong(North Automatic Control Technology Institute,Taiyuan 030006,China;College of Com puter Science and Technology(College of Data Science),Taiyuan University of Technology,Jinzhong 030600,China;Shanci Securities Company Limited,Taiyuan 030032,China)

机构地区北方自动控制技术研究所太原理工大学计算机与科学技术学院(大数据学院) 山西证券股份有限公司

出处《太原理工大学学报》 CAS 北大核心 2024年第4期705-711,共7页 Journal of Taiyuan University of Technology

关键词深度强化学习局部策略迁移 DQN deep reinforcement learning local policy transfer DQN

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1黄子蓉,甯彦淞,王莉.基于优先经验回放的多智能体协同算法[J].太原理工大学学报,2021,52(5):747-753. 被引量：5

二级参考文献2

1陈希亮,曹雷,李晨溪,徐志雄,何明.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606. 被引量：24
2史腾飞,王莉,黄子蓉.序列多智能体强化学习算法[J].模式识别与人工智能,2021,34(3):206-213. 被引量：5

共引文献4

1郑婷一,吴嘉琪,张彬彬,王莉.一种基于深层特征增强的多视图隐空间融合表征方法[J].太原理工大学学报,2022,53(4):697-706.
2郁洲,毕敬,苑海涛.基于改进DQN算法的复杂海战场路径规划方法[J].智能科学与技术学报,2022,4(3):418-425. 被引量：3
3夏琳,罗威,王俊霞,黄一学.基于后验经验回放的MAAC多智能体强化学习算法[J].软件,2023,44(2):17-22.
4李海亮,王莉.有样本重用的阶段性策略梯度深度强化学习[J].太原理工大学学报,2024,55(4):712-719.

1舒晖,蒋守花.云网融合的高校数据服务平台设计与实现[J].长江信息通信,2024,37(6):176-179.
2陈仲,孔超,齐天天,张耕,杨琪,于斐.氧化石墨烯材料在骨缺损修复中的作用研究进展[J].转化医学杂志,2024,13(2):301-307.
3徐勇,董浩然,尹诚.基于Jaya算法的电车驱动电机参数辨识[J].工业控制计算机,2024,37(2):153-155.
4罗煜缤,陈浩,张金刚,郭冲,魏来.面向航天运载器的通用化无线传感网络设计方法[J].宇航总体技术,2024,8(3):57-61.
5赵地,张晟国,谢广明,杜玉红.三级反射式智能聚光塔仿真实验教学设计与改革[J].实验室研究与探索,2024,43(3):135-139.
6王寿鑫.“进阶式”群诗教学路径探究——以《唐诗三首》群诗教学为例[J].语文教学通讯,2024(22):62-63.
7谢忠旭,王志乾,沈铖武,刘旭,孙浩洋,郑博文,成顺.基于光斑轮廓特征的目标快速识别算法研究[J].激光与红外,2024,54(2):289-294.
8杨秀玲,郭海燕,刘忠诚.“双线混融”培养新时代复合型卫生检验专业人才的实践研究[J].科研成果与传播,2023(3):2476-2479.
9尹德强,姚良忠,程帆,徐箭,吴鸣,翟冬阳.考虑制氢效率优化的氢-储-风直流微网功率协调控制[J].电力系统自动化,2024,48(13):19-29.
10董宁宁.低压漏失井固井水泥浆研究与应用[J].中国科技期刊数据库工业A,2016(10):54-54.

太原理工大学学报

2024年第4期

浏览历史

内容加载中请稍等...

深度强化学习局部策略迁移方法

参考文献1

二级参考文献2

共引文献4

相关作者

相关机构

相关主题

浏览历史