检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到1篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于优先采样模型的离线强化学习被引量：1: 1; 作者顾扬程玉虎王雪松《自动化学报》 EI CAS CSCD 北大核心 2024年第1期143-153,共11页; 离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于... 展开更多; 关键词离线强化学习优先采样模型时序差分误差鞅批约束深度Q学习; 下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于优先采样模型的离线强化学习	顾扬程玉虎王雪松	《自动化学报》 EI CAS CSCD 北大核心	2024	1	下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

使用帮助返回顶部