双裁切近端策略优化算法

Proximal Policy Optimization with Double Clipping Boundaries

下载PDF

导出

摘要近端策略优化(proximal policy optimization,PPO)是一种稳定的深度强化学习算法,该算法的关键点之一是使用裁切后的代理目标限制更新步长.实验发现当使用经验最优的裁切系数时,KL散度(Kullback-Leibler divergence)无法被确立上界,这有悖于置信域优化理论.本文提出一种改进的双裁切近端策略优化算法(proximal policy optimization with double clipping boundaries,PPO-DC).该算法通过基于概率的两段裁切边界调整KL散度,将参数限制在置信域内,以保证样本数据得到充分利用.在多个连续控制任务中,PPO-DC算法取得了好于其他算法的性能. Proximal policy optimization(PPO)is a stable deep reinforcement learning algorithm.The key process of the algorithm is to use clipped surrogate targets to limit step size updates.Experiments have found that when a clipping coefficient with optimal experience is employed,the upper bound of Kullback-Leibler(KL)divergence cannot be determined.This phenomenon is against the optimization theory of trust region.In this study,an improved PPO with double clipping boundaries(PPO-DC)algorithm is proposed.The algorithm adjusts the KL divergence based on two probability-based clipping boundaries and limits parameters to the trust region,so as to ensure that the sample data are fully utilized.In several continuous control tasks,the PPO-DC algorithm achieves better performance than other algorithms.

作者张骏王红成 ZHANG Jun;WANG Hong-Cheng(School of Electrical Engineering and Intelligentization,Dongguan University of Technology,Dongguan 523808,China;School of Computer Science and Technology,Dongguan University of Technology,Dongguan 523808,China)

机构地区东莞理工学院电子工程与智能化学院东莞理工学院计算机科学与技术学院

出处《计算机系统应用》 2023年第4期177-186,共10页 Computer Systems & Applications

基金广东省普通高校重点科研平台和项目(2020ZDZX3075)。

关键词强化学习策略梯度近端策略优化裁切机制 reinforcement learning policy gradient(PG) proximal policy optimization(PPO) clipping mechanism

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

1李凯,韩鹏,吴屾,罗杰,李绿洲,甘沁霖.GNSS在地铁沿线保护区安全监测中的应用[J].建材世界,2023,44(1):115-118.
2王晓东,杨昆.基于近邻算法的无人机采集森林数据航迹路线的规划[J].森林工程,2023,39(1):123-128. 被引量：2
3彭坤彦,尹翔,刘笑竹,李恒宇.基于粒子群优化和深度强化学习的策略搜索方法[J].计算机工程与科学,2023,45(4):718-725. 被引量：1
4孙丹,郑建华,高东,韩鹏.深度确定性策略梯度学习的火星无人机控制[J].计算机工程与应用,2023,59(8):288-296.
5马冲冲,王一铮,王坤,冯昌森.考虑源荷不确定性下微电网能量调度的深度强化学习策略[J].高技术通讯,2023,33(1):79-87. 被引量：1
6刘想德,宋泽,张毅,郑凯.一种无先验地图的移动机器人导航方法[J].重庆邮电大学学报（自然科学版）,2023,35(2):360-367. 被引量：1
7孔力,胡学敏,汪顶,刘艳芳,张龑,陈龙.融合多重注意力机制的人眼注视点预测[J].中国图象图形学报,2022,27(12):3503-3515.
8李军,张艺藂,张彩月,谢慧真,张成业,杜梦豪,王雅颖.基于LandTrendr和CCDC算法的神东煤炭基地植被损毁识别对比分析[J].金属矿山,2023(1):55-64. 被引量：6
9张慎文,许崇海,胡天乐,陶霜霜,李鲁群.高QoE的低时延智能网络数据传输调度算法[J].哈尔滨工业大学学报,2023,55(5):132-138.
10易令,李泽平.基于元学习的自适应视频流算法[J].计算机工程与设计,2023,44(3):641-647.

计算机系统应用

2023年第4期

浏览历史

内容加载中请稍等...

双裁切近端策略优化算法

相关作者

相关机构

相关主题

浏览历史