检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到2篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文): 1; 作者殷苌茗王汉兴 +1 位作者陈焕文谢丽娟《长沙电力学院学报（自然科学版）》 2003年第4期12-16,共5页; 智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般... 展开更多; 关键词遗忘算法激励学习 MARKOV决策过程 ATD(λ) 有效跟踪平均渐进瞬时差分学习心理学; 下载PDF 职称材料

基于TD学习的网格资源预测方法被引量：1: 2; 作者张树东曹元大廖乐键《计算机工程》 EI CAS CSCD 北大核心 2005年第21期17-18,68,共3页; 提出了一种新的网格资源预测方法。该算法基于TD学习,不需建立模型,直接从预测环境获得反馈信息,再从反馈信息中学习相应的规则。给出了该算法Java语言的一种实现,并用该系统对电信的接入主机的性能进行了预测试验。结果表明,该预测算... 展开更多; 关键词强化学习瞬时差分学习网格资源预测; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部