针对深度增强学习算法中探索开发策略的平衡问题,提出一种基于VDBE(Value-Difference Based Exploration)扩展的自适应探索改进算法.该算法依赖于值函数差异提出一种基于状态的探索控制策略,以达到在初始学习阶段不熟悉周围环境时agent...针对深度增强学习算法中探索开发策略的平衡问题,提出一种基于VDBE(Value-Difference Based Exploration)扩展的自适应探索改进算法.该算法依赖于值函数差异提出一种基于状态的探索控制策略,以达到在初始学习阶段不熟悉周围环境时agent采取积极探索策略,而随着深入学习和周边环境的熟悉,agent逐渐降低探索率的自适应探索/开发平衡的理想行为状态.展开更多
文摘针对深度增强学习算法中探索开发策略的平衡问题,提出一种基于VDBE(Value-Difference Based Exploration)扩展的自适应探索改进算法.该算法依赖于值函数差异提出一种基于状态的探索控制策略,以达到在初始学习阶段不熟悉周围环境时agent采取积极探索策略,而随着深入学习和周边环境的熟悉,agent逐渐降低探索率的自适应探索/开发平衡的理想行为状态.