基于值函数估计的参数探索策略梯度算法

Function approximation for policy gradients with parameter-based exploration

下载PDF

导出

摘要策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度估计方差大阻碍了其在现实问题中的实际应用。为进一步减小PGPE算法策略梯度估计的方差,提出了基于值函数估计的参数探索策略梯度算法(PGPE-FA),该算法在PGPE算法中引入Actor-Critic框架。具体地,提出的方法使用价值函数估计策略梯度,代替了PGPE方法使用轨迹样本估计策略梯度的方式,从而减小了梯度估计方差。最后,通过实验验证了所提算法能够减小梯度估计的方差。 Policy gradient algorithms suffer from the large variance of gradient estimation.the algorithm of policy gradient with parameter based exploration mitigates this problem to some extent.However,PGPE estimates its gradient based on the Monte Carlo,which requires a large number of samples to achieve the fairly stable policy update.And thus hinders its application in the real world problem.In order to further reduce the variance of policy gradient,the algorithm of function approximation for policy gradients with parameter-based exploration(PGPE-FA)implements the algorithm of PGPE in the Actor-Critic framework.More specifically,the proposed method utilized value function to estimate the policy gradient,instead of using trajectory samples to estimate the policy gradient as PGPE method does,thereby reducing the variance of gradient estimation.Finally,the experiment verifies that the proposed algorithm can reduce the variance of gradient estimation.

作者赵婷婷杨梦楠陈亚瑞王嫄杨巨成 Zhao Tingting;Yang Mengnan;Chen Yarui;Wang Yuan;Yang Jucheng(College of Artificial Intelligence,Tianjin University of Science&Technology,Tianjin 300457,China)

机构地区天津科技大学人工智能学院

出处《计算机应用研究》 CSCD 北大核心 2023年第8期2404-2410,共7页 Application Research of Computers

基金国家自然科学基金资助项目(61976156) 天津市企业科技特派员资助项目(20YDTPJC00560)。

关键词强化学习值函数参数探索策略梯度梯度估计方差 reinforcement learning value function policy gradients with parameter based exploration variance of gradient estimates

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1赵婷婷,吴帅,杨梦楠,陈亚瑞,王嫄,杨巨成.基于互信息最大化的意图强化学习方法的研究[J].计算机应用研究,2022,39(11):3327-3332. 被引量：2
2何立,沈亮,李辉,王壮,唐文泉.强化学习中的策略重用:研究进展[J].系统工程与电子技术,2022,44(3):884-899. 被引量：4
3孔松涛,刘池池,史勇,谢义,王堃.深度强化学习在智能制造中的应用展望综述[J].计算机工程与应用,2021,57(2):49-59. 被引量：14
4刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：446
5刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：124
6杨思明,单征,丁煜,李刚伟.深度强化学习研究综述[J].计算机工程,2021,47(12):19-29. 被引量：46
7李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：39

二级参考文献23

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
2孙波,陈卫东,席裕庚.基于粒子群优化算法的移动机器人全局路径规划[J].控制与决策,2005,20(9):1052-1055. 被引量：79
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：26
6孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：602
7余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：599
8傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
9黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
10杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28

共引文献604

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：39
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
6王昊,林远山,李然,于红,王芳.面向养殖网箱巡检任务的强化学习训练系统[J].计算机与数字工程,2023,51(1):103-111.
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.

1陈锦霖.新形势下房地产企业审计发现的主要问题及对策探索策略[J].环渤海经济瞭望,2023(7):54-56. 被引量：2
2罗峻,段利芳.把握思想分析数据[J].初中生天地,2023(17):45-48.
3于庆洋.基于Pairwise策略优化的双塔召回算法模型研究[J].中国新通信,2023,25(11):34-36.
4张涛,韩文斌,申鹏飞,黄善仿,王侃.螺旋十字型燃料棒中子物理及热工水力性能分析[J].核动力工程,2023,44(S01):69-74. 被引量：2
5张月.基于智能电网的无线通信网络频谱感知系统及性能仿真[J].电脑编程技巧与维护,2023(7):65-67.
6陈曦,司恒斌,张良,冯泊翔,任晓龙,田双,张志宏.基于图神经网络的电-热联合能源系统优化调度研究[J].智慧电力,2023,51(7):67-73.
7李信,李勇军,赵尚弘.基于能量效率的星地NOMA网络功率分配算法[J].电子学报,2023,51(5):1310-1318.
8周翔宇,吉哲,王凤武.基于EEMD-PE-LSTM的短时船舶交通流量预测与航道交通状态可视化[J].大连海事大学学报,2023,49(2):58-68.
9畅倩,邓悦,赵敏娟.生产环节外包能否助力中国粮食安全?——来自粮食主产区的证据[J].华中农业大学学报（社会科学版）,2023(4):11-24. 被引量：1
10王亮.基于机载LiDAR点云数据的建筑物三维模型重建方法研究[J].测绘科学技术,2023,11(3):246-254.

计算机应用研究

2023年第8期

浏览历史

内容加载中请稍等...

基于值函数估计的参数探索策略梯度算法

参考文献7

二级参考文献23

共引文献604

相关作者

相关机构

相关主题

浏览历史