摘要
针对MAXQ算法存在的弊端,提出一种改进的分层学习算法BMAXQ。该方法修改了MAXQ的抽象机制,利用BP神经网络的特点,使得Agent能够自动发现子任务,实现各分层的并行学习,适应动态环境下的学习任务。
An improved method of hierarchical reinforcement learning which named BMAXQ is presented in order to resolve the shortcomings of MAXQ.It amends the abstract mechanism of MAXQ and utilizes the virtues of BP neural network.This method can make agent find the subtasks automatically and realize parallel learning for every layer.It can be adapted to the learning tasks under the dynamic environment.
出处
《计算机工程与应用》
CSCD
北大核心
2011年第30期1-3,共3页
Computer Engineering and Applications
基金
国家自然科学基金No.60873139
山西省自然科学基金(No.2008011040)
北航虚拟现实技术与系统国家重点实验室开放课题(No.SKVR-KF-09-04)~~