融合对比预测编码的深度双Q网络被引量：1

Double Deep Q-Network by Fusing Contrastive Predictive Coding

下载PDF

导出

摘要在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。 In the model unknown partially observable Markov decision process(POMDP),the agent cannot directly access the true state of environment,and the perceptual uncertainty poses challenges for learning the optimal policy.Thus,a dou-ble deep Q-network reinforcement learning algorithm based on the representation of the contrastive predictive coding is proposed.The belief states are modeled explicitly to obtain a compact and efficient history encoding for the policy optimi-zation.To improve data efficiency,the belief replay buffer is introduced to reduce the memory usage by directly storing the belief transition pairs instead of the observation and action sequences.In addition,the phased training strategy is designed for decoupling the representation learning from the policy learning process to improve training stability.The POMDP nav-igation tasks based on the Gym-MiniGrid environment are designed.Experimental results show that the semantic informa-tion related to the state can be captured by the proposed algorithm,which facilitates to achieve stable and efficient policy learning in POMDP.

作者刘剑锋普杰信孙力帆 LIU Jianfeng;PU Jiexin;SUN Lifan(School of Information Engineering,Henan University of Science and Technology,Luoyang,Henan 471023,China)

机构地区河南科技大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2023年第6期162-170,共9页 Computer Engineering and Applications

基金国家部委预研基金(61403120207) 河南省高校科技创新人才资助项目(21HASTIT030) 河南省高等学校青年骨干教师资助项目(2020GGJS073)。

关键词部分可观测马尔可夫决策过程表示学习强化学习对比预测编码深度双Q网络 partially observable Markov decision process(POMDP) representation learning reinforcement learning contrastive predictive coding double deep Q-network

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1张翔,吴华,陈游,宋海方,周一鹏.基于POMDP的主动雷达制导弹干扰措施优化方法[J].空军工程大学学报（自然科学版）,2018,19(5):90-96. 被引量：2
2桂林,武小悦.部分可观测马尔可夫决策过程算法综述[J].系统工程与电子技术,2008,30(6):1058-1064. 被引量：10
3王学宁,贺汉根,徐昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266. 被引量：5
4孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66
5刘全,翟建伟,钟珊,章宗长,周倩,章鹏.一种基于视觉注意力机制的深度循环Q网络模型[J].计算机学报,2017,40(6):1353-1366. 被引量：20

二级参考文献62

1Boutilier C, Dean T, Hank S. Decision theoretic planning: structural assumptions and computational leverage[J]. Journal of Artificial Intelligence Research, 1999, 11 : 1 - 49.
2Astrom K J. Optimal control of Markov decision processes with incomplete state estimation[J]. Journal of Mathematical Analysis and Application, 1965, 10:174 - 205.
3Eagle J. The optimal search for a moving target when the search path is constrained[J]. Operations Research, 1984, 32: 1107- 1115.
4Sondik E J. The optimal control of partially observable Markov processes over the infinite horizon: discounted case[J]. Operations Research, 1978, 26:282 - 304.
5Cassandra A R. A survey of POMDP applications[C]//Proceedings of AAAI Full Symposium on Planning with Partially Observable Markov Decision Processes. 1998, 17- 24.
6White C C. Seherer W T. Solution procedures for parlially observed Markov decision processes [J]. Operations Research. 1989, 37(5): 791-797.
7Smallwood R D. Sondik E J. Optimal control of partially observable processes over the finite horizon[J]. Operations Research. 1973, 21: 1071- 1088.
8Sondik E J. The optimal control of partially observable Markov processes[D]. Department of Electrical Engineering, Stanford University, Stanford, CA, 1971.
9Monahan G. A survey of partially observable Markov decision processes: theory, models, and algorithm[J]. Manage Science, 1982, 28(1):1-16.
10Cheng H. Algorithms for partially observed Markov decision processes[D]. Faculty of Commerce and Business Administration. University of British Columbia, 1988.

共引文献97

1罗国攀,张国良,徐佳宝.基于SPE-ICM的移动机器人内在动机避障规划[J].电子测量与仪器学报,2023,37(2):21-27. 被引量：3
2尚永爽,许爱强,李文海,王怡苹,盛沛.部分可观测信息条件下系统最佳检修策略分析[J].系统工程与电子技术,2012,34(4):749-753. 被引量：4
3汪光丽.阿拉斯加北部斜坡水平井生产测井技术评价[J].测井与射孔,2000(1):57-64.
4彭京亮.一种快速的扫描铅笔稿图细化算法[J].中国图象图形学报（A辑）,2000,5(5):434-439. 被引量：3
5彭正辉.摩天大楼里的复仇女郎[J].传奇故事（百家讲堂）,2000(8):4-24.
6田乐,罗键,曹浪财,陈志平.基于KL距离的交互式动态影响图近似算法[J].系统工程与电子技术,2013,35(1):207-211. 被引量：2
7刘冬,丛明,高森,韩晓东,杜宇.融合神经元激励机制的机器人情景学习与行为控制[J].机器人,2014,36(5):576-583. 被引量：4
8朱斐,吴文,刘全,伏玉琛.一种最大置信上界经验采样的深度Q网络方法[J].计算机研究与发展,2018,55(8):1694-1705. 被引量：14
9李志宏.通信工程中有线传输技术的应用改进[J].电子技术与软件工程,2018(12):23-23. 被引量：6
10白辰甲,刘鹏,赵巍,唐降龙.基于TD-error自适应校正的深度Q学习主动采样方法[J].计算机研究与发展,2019,56(2):262-280. 被引量：12

同被引文献12

1王学宁,贺汉根,徐昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266. 被引量：5
2张翔,吴华,陈游,宋海方,周一鹏.基于POMDP的主动雷达制导弹干扰措施优化方法[J].空军工程大学学报（自然科学版）,2018,19(5):90-96. 被引量：2
3马新新,管昕洁,白光伟,糜元根.边缘计算场景下基于强化学习的应用最优部署[J].计算机工程与设计,2021,42(1):15-23. 被引量：2
4冯春,张祎伟,黄成,姜文彪,武之炜.双足机器人步态控制的深度强化学习方法[J].计算机集成制造系统,2021,27(8):2341-2349. 被引量：8
5程恺,陈刚,余晓晗,刘满,邵天浩.知识牵引与数据驱动的兵棋AI设计及关键技术[J].系统工程与电子技术,2021,43(10):2911-2917. 被引量：13
6耿俊香,姜静,魏胜楠,段昶.CIDDPG的多智能体通信优化方法研究[J].沈阳理工大学学报,2021,40(4):29-34. 被引量：1
7何富君,王晓争,刘凯.基于LSTM与非对称网络的改进DDPG算法研究[J].计算机应用研究,2022,39(1):183-187. 被引量：4
8李少波,刘意杨.基于改进深度强化学习的动态移动机器人协同计算卸载[J].计算机应用研究,2022,39(7):2087-2090. 被引量：4
9高振海,闫相同,高菲.基于逆向强化学习的纵向自动驾驶决策方法[J].汽车工程,2022,44(7):969-975. 被引量：7
10田康,于镝,李擎,张宏昌,吴迎年,范玲玲.基于改进TD3的自动驾驶车道保持决策方法[J].北京交通大学学报,2022,46(5):84-94. 被引量：3

引证文献1

1吕相霖,臧兆祥,李思博,王俊英.基于注意力的循环PPO算法及其应用[J].计算机技术与发展,2024,34(1):136-142.

1张晓彤,王嘉诚,何景涛,陈仕韬,郑南宁.面向不确定性环境的自动驾驶运动规划:机遇与挑战[J].模式识别与人工智能,2023,36(1):1-21. 被引量：3
2李丹.大数据分析在高中教学中的应用[J].中文科技期刊数据库（引文版）教育科学,2021(12):253-255.
3梁展鹏,王罡.能源管理系统在企业中的研究和应用[J].中国科技期刊数据库工业A,2021(9):208-209.
4李杰.关于绿色建筑设计理念在工业建筑设计中的应用[J].中文科技期刊数据库（全文版）工程技术,2021(6):48-49.
5祝娇娇.建筑电气照明中的节能设计措施分析[J].中文科技期刊数据库（全文版）工程技术,2021(6):120-120.
6周娴玮,龚启旭,余松森.基于Stackelberg博弈与深度强化学习的计算卸载策略[J].系统仿真学报,2023,35(2):372-385. 被引量：1
7魏征.民用建筑电气照明节电技术的探讨[J].中文科技期刊数据库（文摘版）工程技术,2021(7):17-18. 被引量：1
8刘美琼.人工智能视域下事业单位档案管理工作的开展策略探讨[J].中文科技期刊数据库（全文版）社会科学,2022(2):177-179.
9陈伟明.市政工程造价的控制与管理方式分析[J].中文科技期刊数据库（全文版）工程技术,2021(8):110-111.
10洪美玲,葛振峰.中小企业数字化转型的障碍与策略研究——基于浙江省调研样本的分析[J].科技创业月刊,2023,36(2):88-92. 被引量：3

计算机工程与应用

2023年第6期

浏览历史

内容加载中请稍等...

融合对比预测编码的深度双Q网络被引量：1

参考文献5

二级参考文献62

共引文献97

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合对比预测编码的深度双Q网络 被引量：1

参考文献5

二级参考文献62

共引文献97

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合对比预测编码的深度双Q网络被引量：1