期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法 被引量:6
1
作者 肖飞 刘全 +2 位作者 傅启明 孙洪坤 高龙 《通信学报》 EI CSCD 北大核心 2013年第1期77-88,共12页
针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基... 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。 展开更多
关键词 强化学习 Sarsa(λ) 梯度下降 势函数 塑造奖赏
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部