期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
模型化强化学习研究综述 被引量:14
1
作者 赵婷婷 孔乐 +2 位作者 韩雅杰 任德华 陈亚瑞 《计算机科学与探索》 CSCD 北大核心 2020年第6期918-927,共10页
深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型化强化学习。无模型强化学习方法的训练... 深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型化强化学习。无模型强化学习方法的训练过程需要大量样本,当采样预算不足,无法收集大量样本时,很难达到预期效果。然而,模型化强化学习可以充分利用环境模型,降低真实样本需求量,在一定程度上提高样本效率。将以模型化强化学习为核心,介绍该领域的研究现状,分析其经典算法,并探讨未来的发展趋势和应用前景。 展开更多
关键词 深度强化学习(DRL) 模型化强化学习 状态转移模型 样本利用率
下载PDF
一种基于条件生成对抗网络的模型化策略搜索方法
2
作者 孔乐 赵婷婷 《天津科技大学学报》 CAS 2021年第1期68-74,共7页
模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂... 模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂环境中有效的模型化策略搜索强化学习方法.该方法首先利用条件生成对抗网络对环境中的状态转移函数学习,再利用经典的策略搜索方法进行策略学习.通过实验验证,该方法能够准确地生成状态转移数据,为策略学习提供充足的学习样本,从而得到稳定、高性能的策略. 展开更多
关键词 条件生成对抗网络 模型化强化学习 策略搜索 状态转移函数 环境模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部