摘要
针对GA3C求解视频游戏中POMDP问题的特点,通过引入长短期记忆(Long-Short Term Memory, LSTM)保留游戏过程中多时间步的历史状态信息,与当前状态信息一同作为输入状态信息,该网络仅需对当前的1幅游戏截图进行预处理,网络输入状态空间的规模在每个训练时间步都得以缩小,只有原来传统网络的1/4,从而可以减小更新网络所需的计算量及存储要求,加快学习速度。同时LSTM有记忆机制,改进的网络模型将有利于加强求解POMDP问题的性能。
出处
《电脑编程技巧与维护》
2019年第4期24-26,共3页
Computer Programming Skills & Maintenance