检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到3篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于二阶时序差分误差的双网络DQN算法被引量：3: 1; 作者陈建平周鑫 +3 位作者傅启明高振付保川吴宏杰《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页; 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 展开更多; 关键词深度强化学习马尔科夫决策过程深度Q网络二阶时序差分误差梯度下降; 下载PDF 职称材料

基于优先采样模型的离线强化学习: 2; 作者顾扬程玉虎王雪松《自动化学报》 EI CAS CSCD 北大核心 2024年第1期143-153,共11页; 离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于... 展开更多; 关键词离线强化学习优先采样模型时序差分误差鞅批约束深度Q学习; 下载PDF 职称材料

一种多重优先经验回放的麻将游戏数据利用方法被引量：1: 3; 作者李淑琴李奕《重庆理工大学学报（自然科学）》 CAS 北大核心 2022年第12期162-169,共8页; 针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神... 展开更多; 关键词大众麻将多重优先经验回放时序差分误差自博弈; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部