期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
在线深度强化学习探索策略生成方法综述
1
作者 李石磊 叶清 +3 位作者 袁志民 陈云 何涛 付钰 《机器人》 EI CSCD 北大核心 2024年第6期753-768,共16页
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的... 针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的探索策略生成方法,对在奖励空间中引入内在激励的探索方法进行了分类介绍并结合优缺点分析给出了相关研究进展;结合任务性能和多样性需求,对参数空间神经进化算法中的个体适应度函数表征方法进行了详细分析。随后,对动作空间探索和参数空间探索相结合的思路与方法进行了综述分析,并对高层任务目标空间和任务无关探索策略生成方法进行了介绍。最后,对探索策略安全约束处理方法进行了分类讨论,并给出了探索策略生成面临的难题与下一步研究方向。 展开更多
关键词 在线深度强化学习 探索策略 任务策略 内在激励 参数空间 安全探索
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部