-
题名基于人类先验知识的强化学习综述
被引量:2
- 1
-
-
作者
国子婧
冯旸赫
姚晨蝶
许乃夫
-
机构
国防科技大学系统工程学院
-
出处
《计算机应用》
CSCD
北大核心
2021年第S02期1-4,共4页
-
基金
国家自然科学基金资助项目(71701205)。
-
文摘
强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;并且对于动态任务规划问题也束手无策,只能求解静态的确定性问题。强化学习中的值函数近似等近似算法解决了这类方法的"维度灾难"问题,同时强化学习在智能体与环境的交互过程中加入随机因素,使其广泛应用于解决动态与随机性问题。然而强化学习需要智能体不断与环境交互来得到最优策略,当状态空间较大时,需要更多的采样和探索对策略进行梯度更新,收敛速度较慢,难以在实际中应用。人类在学习时利用先验知识保证了学习的快速开始,并减少了问题的探索时间,因此研究人类先验知识和强化学习的意义重大,可有效减少智能体对环境的采样和探索,帮助智能体更快地找到最优策略。基于人类先验知识与智能体交互的时间节点进行分类,对整合人类先验知识到强化学习的方法进行综述,最后对其发展方向进行展望。
-
关键词
强化学习
人类先验知识
人类反馈
人类建议
人类示范
-
Keywords
reinforcement learning
human prior knowledge
human feedback
human advice
human demonstration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-