期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于离线强化学习的研究综述
1
作者 陈锶奇 耿婕 +3 位作者 汪云飞 余伟驰 赵佳宁 王仕超 《无线电通信技术》 北大核心 2024年第5期831-842,共12页
离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展... 离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,重点介绍多种缓解主要问题的方法:分布偏移的策略,包括约束目标策略与行为策略对齐、价值函数约束、模型不确定性量化以及基于模型的离线强化学习方法。讨论了目前离线强化学习的模拟环境以及重要应用场景。 展开更多
关键词 强化学习 离线强化学习 自动决策 外推误差
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部