期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于人类先验知识的强化学习综述 被引量:2
1
作者 国子婧 冯旸赫 +1 位作者 姚晨蝶 许乃夫 《计算机应用》 CSCD 北大核心 2021年第S02期1-4,共4页
强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;... 强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;并且对于动态任务规划问题也束手无策,只能求解静态的确定性问题。强化学习中的值函数近似等近似算法解决了这类方法的"维度灾难"问题,同时强化学习在智能体与环境的交互过程中加入随机因素,使其广泛应用于解决动态与随机性问题。然而强化学习需要智能体不断与环境交互来得到最优策略,当状态空间较大时,需要更多的采样和探索对策略进行梯度更新,收敛速度较慢,难以在实际中应用。人类在学习时利用先验知识保证了学习的快速开始,并减少了问题的探索时间,因此研究人类先验知识和强化学习的意义重大,可有效减少智能体对环境的采样和探索,帮助智能体更快地找到最优策略。基于人类先验知识与智能体交互的时间节点进行分类,对整合人类先验知识到强化学习的方法进行综述,最后对其发展方向进行展望。 展开更多
关键词 强化学习 人类先验知识 人类反馈 人类建议 人类示范
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部