期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于离线强化学习的研究综述
1
作者
陈锶奇
耿婕
+3 位作者
汪云飞
余伟驰
赵佳宁
王仕超
《无线电通信技术》
北大核心
2024年第5期831-842,共12页
离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展...
离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,重点介绍多种缓解主要问题的方法:分布偏移的策略,包括约束目标策略与行为策略对齐、价值函数约束、模型不确定性量化以及基于模型的离线强化学习方法。讨论了目前离线强化学习的模拟环境以及重要应用场景。
展开更多
关键词
强化学习
离线强化学习
自动决策
外推误差
下载PDF
职称材料
题名
基于离线强化学习的研究综述
1
作者
陈锶奇
耿婕
汪云飞
余伟驰
赵佳宁
王仕超
机构
重庆交通大学信息科学与工程学院
天津大学胸科医院
天津大学智能与计算学部
出处
《无线电通信技术》
北大核心
2024年第5期831-842,共12页
基金
国家自然科学基金(61602391)
天津市科技计划项目(22JCZDJC00580)。
文摘
离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,重点介绍多种缓解主要问题的方法:分布偏移的策略,包括约束目标策略与行为策略对齐、价值函数约束、模型不确定性量化以及基于模型的离线强化学习方法。讨论了目前离线强化学习的模拟环境以及重要应用场景。
关键词
强化学习
离线强化学习
自动决策
外推误差
Keywords
reinforcement learning
offline reinforcement learning
automated decision-making
extrapolation errors
分类号
TN919.23 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于离线强化学习的研究综述
陈锶奇
耿婕
汪云飞
余伟驰
赵佳宁
王仕超
《无线电通信技术》
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部