有样本重用的阶段性策略梯度深度强化学习

Deep Reinforcement Learning with Phasic Policy Gradient with Sample Reuse

下载PDF

导出

摘要【目的】针对基于策略的深度强化学习算法中存在的样本不能重复利用、样本利用率低的问题,提出一种有样本重用的阶段性策略梯度算法(phasic policy gradient with sample reuse,SR-PPG).【方法】该算法在阶段性策略梯度算法(phasic policy gradient,PPG)的基础上引入离线数据,从而减小训练的时间成本,使模型能够快速收敛。在这项工作中,SR-PPG将理论上支持的在线策略算法的稳定性优势与离线策略算法的样本效率相结合,开发了适用于离线策略设置的策略改进保证,并将这些界限与阶段性策略梯度算法使用的剪裁机制联系起来。【结果】一系列理论和实验证明,该算法通过有效平衡稳定性和样本效率这两个相互竞争的目标,提供了更好的性能。【Purposes】The algoritihm of phasic policy gradient with sample reuse(SR-PPG)is proposed to address the problems of non-reuse of samples and low sample utilization in policy-based deep reinforcement learning algorithms.【Methods】In the proposed algorithm,offline data are introduced on the basis of the phasic policy gradient(PPG),thus reducing the time cost of training and enabling the model to converge quickly.In this work,SR-PPG combines the stability advantages of theoretically supported on-policy algorithms with the sample efficiency of off-policy algorithms to develop policy improvement guarantees applicable to off-policy settings and to link these bounds to the clipping mechanism used by PPG.【Findings】A series of theoretical and experimental demonstrations show that this algorithm provides better performance by effectively balancing the competing goals of stability and sample efficiency.

作者李海亮王莉 LI Hailiang;WANG Li(College of Data Science,Taiyuan University of Technology,Jinzhong 030600,China)

机构地区太原理工大学大数据学院

出处《太原理工大学学报》 CAS 北大核心 2024年第4期712-719,共8页 Journal of Taiyuan University of Technology

基金国家自然科学基金区域创新发展联合基金资助项目(U22A20167) 国家重点研发计划(2021YFB3300503)。

关键词深度强化学习阶段性策略梯度样本重用 deep reinforcement learning phasic policy gradient sample reuse

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献8

1史腾飞,王莉,黄子蓉.序列多智能体强化学习算法[J].模式识别与人工智能,2021,34(3):206-213. 被引量：5
2畅鑫,李艳斌,田淼,陈苏逸,杜宇峰,赵研.基于一维卷积循环神经网络的深度强化学习算法[J].计算机测量与控制,2022,30(1):258-265. 被引量：8
3黄子蓉,甯彦淞,王莉.基于优先经验回放的多智能体协同算法[J].太原理工大学学报,2021,52(5):747-753. 被引量：5
4毛国君,顾世民.改进的Q-Learning算法及其在路径规划中的应用[J].太原理工大学学报,2021,52(1):91-97. 被引量：18
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：606
6宋红阳,朱小飞,郭嘉丰.基于强化依赖图的方面情感分类[J].太原理工大学学报,2022,53(2):248-256. 被引量：3
7赖俊,魏竞毅,陈希亮.分层强化学习综述[J].计算机工程与应用,2021,57(3):72-79. 被引量：13
8刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：461

二级参考文献31

1乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3窦全胜,周春光,徐中宇,潘冠宇.动态优化环境下的群核进化粒子群优化方法[J].计算机研究与发展,2006,43(1):89-95. 被引量：20
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5MarkoffJ. How many computers to identify a cat?[NJ The New York Times, 2012-06-25.
6MarkoffJ. Scientists see promise in deep-learning programs[NJ. The New York Times, 2012-11-23.
7李彦宏.2012百度年会主题报告:相信技术的力量[R].北京:百度,2013.
810 Breakthrough Technologies 2013[N]. MIT Technology Review, 2013-04-23.
9Rumelhart D, Hinton G, Williams R. Learning representations by back-propagating errors[J]. Nature. 1986, 323(6088): 533-536.
10Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science. 2006, 313(504). Doi: 10. 1l26/science. 1127647.

共引文献1098

1贾彦哲.论人工智能研发者过失犯的注意义务[J].华中师范大学研究生学报,2020(2):40-46.
2傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
3刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：42
6毕思文,Henri Jaffrès,Chandra Sekhar Roychoudhuri.量子遥感发展新态势——世界首次量子遥感国际会议评述[J].全球变化数据学报（中英文）,2019,3(4):317-325. 被引量：1
7范敏,胥小波,聂小明.基于字符级扩张卷积网络的Web攻击检测方法[J].计算机应用研究,2020,37(S02):234-237. 被引量：4
8周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
9孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
10华夏,王新晴,马昭烨,王东,邵发明.基于递归神经网络的视频多目标检测技术[J].计算机应用研究,2020,37(2):615-620. 被引量：8

1杜峰,许安彬.基于FP&O-IWSO方法追踪光伏阴影条件下的MPPT分析[J].电子技术（上海）,2024,53(4):81-83.
2黄秋萍,童薇羽,吴锐,管兴坚.高校图书馆专利信息服务实践及创新性策略研究——以华东交通大学图书馆为例[J].河南图书馆学刊,2024,44(1):60-62.

太原理工大学学报

2024年第4期

浏览历史

内容加载中请稍等...

有样本重用的阶段性策略梯度深度强化学习

参考文献8

二级参考文献31

共引文献1098

相关作者

相关机构

相关主题

浏览历史