期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于兴趣函数的多样化Option-Critic算法
1
作者 栗军伟 刘全 +1 位作者 黄志刚 徐亚鹏 《计算机研究与发展》 EI 2024年第12期3108-3120,共13页
Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option... Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多样性.但这会导致算法学习速度慢和内部策略的知识迁移能力低等问题,严重影响了算法性能.针对以上问题,提出基于兴趣函数优化的多样化Option-Critic算法(diversity-enriched Option-Critic algorithm with interest functions,DEOC-IF).该算法在多样化Option-Critic算法(diversity-enriched Option-Critic,DEOC)的基础上,通过引入兴趣函数约束上层策略对Option内部策略的选择,既保证了Option集合的多样性,又使得学习到的内部策略可以关注状态空间的不同区域,有利于提高算法的知识迁移能力,加快学习速度.此外,DEOC-IF算法引入一种新的兴趣函数更新梯度,有利于提高算法的探索能力.为了验证算法的有效性和知识迁移能力,分别在4房间导航任务、Mujoco和MiniWorld实验环境中,将DEOC-IF算法与其他最新算法进行对比实验.结果表明,DEOC-IF算法具有更好的性能优势和策略迁移能力. 展开更多
关键词 强化学习 时序抽象 option框架 兴趣函数 option-Critic算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部