潜在空间中深度强化学习方法研究综述

Review of Deep Reinforcement Learning in Latent Space

下载PDF

导出

摘要深度强化学习(DRL)是实现通用人工智能的一种有效学习范式,已在一系列实际应用中取得了显著成果。然而,DRL存在泛化性能差、样本效率低等问题。基于深度神经网络的表示学习通过学习环境的底层结构,能够有效缓解上述问题。因此,基于潜在空间的深度强化学习成为该领域的主流方法。系统地综述了基于潜在空间的表示学习在深度强化学习中的研究进展,分析并总结了现有基于潜在空间的深度强化学习的方法,将其分为潜在空间中的状态表示、动作表示以及动力学模型进行详细阐述。其中,潜在空间中的状态表示又被分为基于重构方式的状态表示方法、基于互模拟等价的状态表示方法及其他状态表示方法。最后,列举了现有基于潜在空间的强化学习在游戏领域、智能控制领域、推荐领域及其他领域的成功应用,并浅谈了该领域的未来发展趋势。 Deep reinforcement learning(DRL)is an effective learning paradigm to realize general artificial intelligence,and has achieved remarkable achievements in a series of real-world applications.However,deep reinforcement learning has some challenges,such as generalization capability and sample efficiency.Representation learning based on deep neural networks can effectively alleviate the above problems by learning the underlying structure of the environment.Therefore,latent space based deep reinforcement learning has become the popular method in this field.A systematic review is conducted on the research progress of representation learning based on latent space in deep reinforcement learning.Existing methods of deep reinforcement learning based on latent space are analyzed and summarized,and they are categorized into state representation,action representation,and dynamics model in the latent space.Within the state representation in the latent space,it is further divided into methods based on reconstruction,methods based on mutual imitation equivalence,and other state representation methods.Finally,successful applications of deep reinforcement learning based on latent space in areas such as gaming,intelligent control,recommendation systems,and other domains are presented,followed by a brief discussion on the future development trends in this field.

作者赵婷婷孙威陈亚瑞王嫄杨巨成 ZHAO Tingting;SUN Wei;CHEN Yarui;WANG Yuan;YANG Jucheng(College of Artificial Intelligence,Tianjin University of Science and Technology,Tianjin 300457,China)

机构地区天津科技大学人工智能学院

出处《计算机科学与探索》 CSCD 北大核心 2023年第9期2047-2074,共28页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金(61976156) 天津市企业科技特派员项目(20YDTPJC00560)。

关键词强化学习深度学习潜在空间状态表示动作表示 reinforcement learning deep learning latent space state representation action representation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1肖硕,黄珍珍,张国鹏,杨树松,江海峰,李天旭.基于SAC的多智能体深度强化学习算法[J].电子学报,2021,49(9):1675-1681. 被引量：12
2林景栋,吴欣怡,柴毅,尹宏鹏.卷积神经网络结构优化综述[J].自动化学报,2020,46(1):24-37. 被引量：134

二级参考文献8

1曹源,唐涛,徐田华,穆建成.形式化方法在列车运行控制系统中的应用[J].交通运输工程学报,2010,10(1):112-126. 被引量：33
2吴胜权,黄振晖,曹源.有轨电车路权配置与信号系统选择[J].中国铁路,2014(8):97-99. 被引量：24
3张婷,李玉鑑,胡海鹤,张亚红.基于跨连卷积神经网络的性别分类模型[J].自动化学报,2016,42(6):858-865. 被引量：41
4李勇,林小竹,蒋梦莹.基于跨连接LeNet-5网络的面部表情识别[J].自动化学报,2018,44(1):176-182. 被引量：99
5雷杰,高鑫,宋杰,王兴路,宋明黎.深度网络模型压缩综述[J].软件学报,2018,29(2):251-266. 被引量：45
6周沛,陈后金,于泽宽,彭亚辉,李艳凤,杨帆.跨模态医学图像预测综述[J].电子学报,2019,47(1):220-226. 被引量：9
7郑兴华,孙喜庆,吕嘉欣,鲜征征,李磊.基于深度学习和智能规划的行为识别[J].电子学报,2019,47(8):1661-1668. 被引量：12
8闻佳,王宏君,邓佳,刘鹏飞.基于深度学习的异常事件检测[J].电子学报,2020,48(2):308-313. 被引量：14

共引文献143

1阳雨妍,宋爱国,沈书馨,李会军.基于CNN-GRU的遥操作机器人操作者识别与自适应速度控制方法[J].仪器仪表学报,2021,42(3):123-131. 被引量：17
2何龙健,钟子乐,邹大辉,黄灿斌,邓卓然,梁艳.面向医疗整容的三维人脸重建与编辑系统[J].计算机系统应用,2022,31(12):69-77.
3李小艳,宋亚林,乐飞.残差密集块的卷积神经网络图像去噪[J].计算机系统应用,2022,31(10):166-174. 被引量：2
4张余冉,段喜萍,李昀松,刘庭圆.基于ResNet-ACmix融合特征的ECO目标跟踪算法改进[J].哈尔滨师范大学自然科学学报,2023,39(1):75-82.
5欧阳勇,李玉晶.牙本质磷蛋白及其功能研究[J].北京口腔医学,2000,8(1):43-46. 被引量：2
6郭荆学.安琪TH-AADY在肖家桥酒厂的应用[J].酿酒科技,2000(3):49-49.
7高秀龙,葛动元.基于自动驾驶系统的轻量型卷积神经网络优化[J].计算机系统应用,2020,29(3):93-99. 被引量：2
8马永杰,刘培培.图像分类卷积神经网络的进化设计[J].西北师范大学学报（自然科学版）,2020,56(3):55-61. 被引量：3
9王建涛,吴叶兰,廖禺,陈怡宇.基于卷积神经网络的柑橘病叶高光谱分类[J].信息技术与信息化,2020(3):84-87. 被引量：6
10随博文,黄志坚,姜宝祥,郑欢,温家一.基于深度Q网络的水面无人艇路径规划算法[J].上海海事大学学报,2020,41(3):1-5. 被引量：5

1岑科廷,沈华伟,曹婍,程学旗.图对比学习综述[J].中文信息学报,2023,37(5):1-21. 被引量：1
2郝怡.公共艺术中剪纸元素的重构对湖北剪纸公共艺术设计的启示[J].美术文献,2023(2):145-147. 被引量：1
3李航,廖映华,黄波.基于改进DQN算法的茶叶采摘机械手路径规划[J].中国农机化学报,2023,44(8):198-205. 被引量：1
4陈玲玲,赵全军.认知车联网中基于改进的强化学习的频谱接入方法[J].电子制作,2023,31(16):38-41.
5黄岩松,姚锡凡,景轩,胡晓阳.基于深度Q网络的多起点多终点AGV路径规划[J].计算机集成制造系统,2023,29(8):2550-2562. 被引量：2
6郭新超,张维玉,夏忠秀.双向数据增强图卷积网络[J].计算机工程与设计,2023,44(8):2345-2351. 被引量：1
7李菲菲,方海燕,陈何,刘宝根.自闭症儿童的内隐学习假说:来自人工语法学习的证据[J].心理科学,2023,46(4):809-816.
8张衔春,陈宇超,栾晓帆.“以地谋发展”模式的空间重构——以浙江省山海协作工程为例[J].自然资源学报,2023,38(7):1730-1742. 被引量：9
9李兰,李向伟,张旭娟,孙丽娟,高伟哲.基于小波卷积神经网络的活体人脸检测算法[J].兰州工业学院学报,2023,30(4):79-84.
10吴俊锋,王文,汪亮,陶先平,胡昊,吴海军.基于两阶段意图共享的多智能体强化学习方法[J].计算机学报,2023,46(9):1820-1837. 被引量：1

计算机科学与探索

2023年第9期

浏览历史

内容加载中请稍等...

潜在空间中深度强化学习方法研究综述

参考文献2

二级参考文献8

共引文献143

相关作者

相关机构

相关主题

浏览历史