-
题名在线深度强化学习探索策略生成方法综述
- 1
-
-
作者
李石磊
叶清
袁志民
陈云
何涛
付钰
-
机构
海军工程大学信息安全系
-
出处
《机器人》
EI
CSCD
北大核心
2024年第6期753-768,共16页
-
基金
海军武器装备综合研究项目(2022108010)
军委科技委基础加强计划技术领域基金项目(2019-JCJQ-JJ-042)。
-
文摘
针对在线深度强化学习算法训练过程中的探索-利用难题,在对其概要介绍基础上,从探索策略与任务策略的关系角度入手,对单智能体在线深度强化学习算法中的探索策略生成方法进行分类综述。首先重点介绍了基于任务策略奖励空间与参数空间的探索策略生成方法,对在奖励空间中引入内在激励的探索方法进行了分类介绍并结合优缺点分析给出了相关研究进展;结合任务性能和多样性需求,对参数空间神经进化算法中的个体适应度函数表征方法进行了详细分析。随后,对动作空间探索和参数空间探索相结合的思路与方法进行了综述分析,并对高层任务目标空间和任务无关探索策略生成方法进行了介绍。最后,对探索策略安全约束处理方法进行了分类讨论,并给出了探索策略生成面临的难题与下一步研究方向。
-
关键词
在线深度强化学习
探索策略
任务策略
内在激励
参数空间
安全探索
-
Keywords
on-line deep reinforcement learning
exploratory policy
task policy
intrinsic reward
parametric space
safe exploration
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-