检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到3篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

增强型深度确定策略梯度算法被引量：8: 1; 作者陈建平何超 +3 位作者刘全吴宏杰胡伏原傅启明《通信学报》 EI CSCD 北大核心 2018年第11期106-115,共10页; 针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样... 展开更多; 关键词深度强化学习样本排序自模拟度量时间差分误差; 下载PDF 职称材料

一种新的基于值函数迁移的快速Sarsa算法被引量：3: 2; 作者傅启明刘全 +2 位作者尤树华黄蔚章晓芳《电子学报》 EI CAS CSCD 北大核心 2014年第11期2157-2161,共5页; 知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息... 展开更多; 关键词强化学习 VFT-Sarsa算法自模拟度量值函数迁移; 下载PDF 职称材料

基于值函数迁移的启发式Sarsa算法被引量：2: 3; 作者陈建平杨正霞 +3 位作者刘全吴宏杰徐杨傅启明《通信学报》 EI CSCD 北大核心 2018年第8期37-47,共11页; 针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进... 展开更多; 关键词强化学习值函数迁移自模拟度量变分贝叶斯; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部