离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于...离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.展开更多
针对运动突变目标视觉跟踪问题,提出一种基于视觉显著性的两阶段采样跟踪算法.首先,将视觉显著性信息引入到Wang-Landau蒙特卡罗(Wang-Landau Monte Carlo,WLMC)跟踪算法中,设计了结合显著性先验的接受函数,利用子区域的显著性值来引导...针对运动突变目标视觉跟踪问题,提出一种基于视觉显著性的两阶段采样跟踪算法.首先,将视觉显著性信息引入到Wang-Landau蒙特卡罗(Wang-Landau Monte Carlo,WLMC)跟踪算法中,设计了结合显著性先验的接受函数,利用子区域的显著性值来引导马尔可夫链的构造,通过增大目标出现区粒子的接受概率,提高采样效率;其次,针对运动序列中平滑与突变运动共存的特点,建立两阶段采样模型.其中第一阶段对目标当前运动类型进行判定,第二阶段则根据判定结果采用相应算法.突变运动采用基于视觉显著性的WLMC算法,平滑运动采用双链马尔可夫链蒙特卡罗(Marko chain Monte Carlo,MCMC)算法,以此完成目标跟踪,提高算法的鲁棒性.该算法既避免了目标在平滑运动时全局采样导致精度下降的缺点,又能在目标发生运动突变时有效捕获目标.实验结果表明,该算法不仅能有效处理运动突变目标的跟踪问题,在典型图像序列上也具有良好的鲁棒性.展开更多
文摘离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.
基金supported by the National Natural Science Foundation of China(No.61763004)the Natural Science Foundation of Chongqing Municipal Education Commission,China(No.KJ1503306)
文摘针对运动突变目标视觉跟踪问题,提出一种基于视觉显著性的两阶段采样跟踪算法.首先,将视觉显著性信息引入到Wang-Landau蒙特卡罗(Wang-Landau Monte Carlo,WLMC)跟踪算法中,设计了结合显著性先验的接受函数,利用子区域的显著性值来引导马尔可夫链的构造,通过增大目标出现区粒子的接受概率,提高采样效率;其次,针对运动序列中平滑与突变运动共存的特点,建立两阶段采样模型.其中第一阶段对目标当前运动类型进行判定,第二阶段则根据判定结果采用相应算法.突变运动采用基于视觉显著性的WLMC算法,平滑运动采用双链马尔可夫链蒙特卡罗(Marko chain Monte Carlo,MCMC)算法,以此完成目标跟踪,提高算法的鲁棒性.该算法既避免了目标在平滑运动时全局采样导致精度下降的缺点,又能在目标发生运动突变时有效捕获目标.实验结果表明,该算法不仅能有效处理运动突变目标的跟踪问题,在典型图像序列上也具有良好的鲁棒性.