-
题名有样本重用的阶段性策略梯度深度强化学习
- 1
-
-
作者
李海亮
王莉
-
机构
太原理工大学大数据学院
-
出处
《太原理工大学学报》
CAS
北大核心
2024年第4期712-719,共8页
-
基金
国家自然科学基金区域创新发展联合基金资助项目(U22A20167)
国家重点研发计划(2021YFB3300503)。
-
文摘
【目的】针对基于策略的深度强化学习算法中存在的样本不能重复利用、样本利用率低的问题,提出一种有样本重用的阶段性策略梯度算法(phasic policy gradient with sample reuse,SR-PPG).【方法】该算法在阶段性策略梯度算法(phasic policy gradient,PPG)的基础上引入离线数据,从而减小训练的时间成本,使模型能够快速收敛。在这项工作中,SR-PPG将理论上支持的在线策略算法的稳定性优势与离线策略算法的样本效率相结合,开发了适用于离线策略设置的策略改进保证,并将这些界限与阶段性策略梯度算法使用的剪裁机制联系起来。【结果】一系列理论和实验证明,该算法通过有效平衡稳定性和样本效率这两个相互竞争的目标,提供了更好的性能。
-
关键词
深度强化学习
阶段性策略梯度
样本重用
-
Keywords
deep reinforcement learning
phasic policy gradient
sample reuse
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-