改进GA3C求解POMDP的深度强化学习网络模型

下载PDF

导出

摘要针对GA3C求解视频游戏中POMDP问题的特点,通过引入长短期记忆(Long-Short Term Memory, LSTM)保留游戏过程中多时间步的历史状态信息,与当前状态信息一同作为输入状态信息,该网络仅需对当前的1幅游戏截图进行预处理,网络输入状态空间的规模在每个训练时间步都得以缩小,只有原来传统网络的1/4,从而可以减小更新网络所需的计算量及存储要求,加快学习速度。同时LSTM有记忆机制,改进的网络模型将有利于加强求解POMDP问题的性能。

作者陈晓军康士伟

机构地区三峡大学水电工程智能视觉检测湖北省重点实验室三峡大学计算机与信息学院

出处《电脑编程技巧与维护》 2019年第4期24-26,共3页 Computer Programming Skills & Maintenance

关键词 GA3C求解 POMDP问题学习网络模型

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1徐松林.深度强化学习概述[J].电脑知识与技术,2019,15(1X):193-194. 被引量：2
2罗舒俊.基于深度强化学习的多代理马尔科夫游戏[J].电脑编程技巧与维护,2018(12):10-13. 被引量：1
3刘全,闫岩,朱斐,吴文,张琳琳.一种带探索噪音的深度循环Q网络[J].计算机学报,2019,42(7):1588-1604. 被引量：11

二级参考文献4

1傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
2刘全,翟建伟,钟珊,章宗长,周倩,章鹏.一种基于视觉注意力机制的深度循环Q网络模型[J].计算机学报,2017,40(6):1353-1366. 被引量：20
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：472
4高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268

共引文献11

1段雯瑜,陈敏东,黄山江,戴美魁,王新宁,徐利.融合Lamb-Jenkinson分型法和LSTM神经网络的PM2.5预测研究[J].环境科学与技术,2020(1):92-97. 被引量：5
2彭正辉.摩天大楼里的复仇女郎[J].传奇故事（百家讲堂）,2000(8):4-24.
3甄岩,袁健全,池庆玺,郝明瑞.深度强化学习方法在飞行器控制中的应用研究[J].战术导弹技术,2020(4):112-118. 被引量：3
4黄志勇,吴昊霖,王壮,李辉.基于平均神经网络参数的DQN算法[J].计算机科学,2021,48(4):223-228. 被引量：2
5张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：26
6黄晓冬,苑海涛,毕敬,刘涛.基于DQN的海战场舰船路径规划及仿真[J].系统仿真学报,2021,33(10):2440-2448. 被引量：8
7吕帅,龚晓宇,张正昊,韩帅,张峻伟.结合进化算法的深度强化学习方法研究综述[J].计算机学报,2022,45(7):1478-1499. 被引量：10
8袁帅,张莉莉,顾琦然,张凤,吕佳琪.移动机器人优先采样D3QN路径规划方法研究[J].小型微型计算机系统,2023,44(5):923-929. 被引量：4
9张凤,顾琦然,袁帅.好奇心蒸馏双Q网络移动机器人路径规划方法[J].计算机工程与应用,2023,59(19):316-322. 被引量：1
10张立华,刘全,黄志刚,朱斐.逆向强化学习研究综述[J].软件学报,2023,34(10):4772-4803. 被引量：2

1郭建伟.为游戏本本找个录像专家[J].电脑知识与技术（经验技巧）,2018,0(1):98-99.
2ALONG(文/图).随身移动存储——128GB U盘导购[J].电脑知识与技术（经验技巧）,2018(12):58-60.
3周爽.基于大数据的教育领域应用研究[J].电脑迷,2018(8):232-232. 被引量：2
4王丽君,孟迎军,罗为,周月娥.基于状态空间多变量误差校正的预测控制[J].控制工程,2019,26(3):578-583. 被引量：3
5田博帆,严瀚莹,王苏弘,邹凌.基于深度学习的ADHD儿童和正常儿童脑电信号分类研究[J].计算机应用研究,2019,36(2):347-350. 被引量：1
6LIU Bingbing,KANG Yu,JIANG Xiaofeng,QIN Jiahu.A Fast Approximation Method for Partially Observable Markov Decision Processes[J].Journal of Systems Science & Complexity,2018,31(6):1423-1436. 被引量：3
7钟雪刚.实施“分层教学”的几点思考[J].高考,2019(3):108-108.
8胡浩.《GeForce Experience》视频录制功能再加强[J].计算机与网络,2017,43(19):34-34.
9张会,韩娟娟,韩玉强.智能型枪支弹药专用保险柜的主要技术[J].科学技术创新,2018(34):158-159.
10何颖刚,王宇.一种基于字向量和LSTM的句子相似度计算方法[J].长江大学学报（自然科学版）,2019,16(1):88-94. 被引量：4

电脑编程技巧与维护

2019年第4期

浏览历史

内容加载中请稍等...

改进GA3C求解POMDP的深度强化学习网络模型

参考文献3

二级参考文献4

共引文献11

相关作者

相关机构

相关主题

浏览历史