基于内在动机的深度强化学习探索方法综述被引量：1

Exploration Approaches in Deep Reinforcement Learning Based on Intrinsic Motivation:A Review

下载PDF

导出

摘要近年来,深度强化学习(deep reinforcement learning,DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望. In recent years,deep reinforcement learning has made many important achievements in game artificial intelligence,robotics and other fields.However,in the realistic application scenarios with sparse rewards and random noises,such methods are suffering much from exploring the large state-action space.Introducing the notion of intrinsic motivation from psychology into deep reinforcement learning is an important idea to solve the above problem.Firstly,the connotation of the difficulty of exploration in deep reinforcement learning is explained,and three classical exploration methods are introduced,and their limitations in high-dimensional or continuous scenarios are discussed.Secondly,the background of the introduction of intrinsic motivation into deep reinforcement learning and the common testing environments of algorithms and models are described.On this basis,the basic principles,advantages and disadvantages of various exploration methods are analyzed in detail,including count-based,knowledge-based and competency-based approaches.Then,the applications of deep reinforcement learning based on intrinsic motivation in different fields are introduced.Finally,this paper throws light on the key problems that need to be solved for more advanced algorithms,such as the difficulty in constructing effective state representation,and also pinpoints some prospective research directions such as representation learning and knowledge accumulation.Hopefully,this review can provide readers with guidance of designing suitable intrinsic rewards for problems in hand and devising more effective exploration algorithms.

作者曾俊杰秦龙徐浩添张琪胡越尹全军 Zeng Junjie;Qin Long;Xu Haotian;Zhang Qi;Hu Yue;Yin Quanjun(College of Systems Engineering,National University of Defense Technology,Changsha 410073)

机构地区国防科技大学系统工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2359-2382,共24页 Journal of Computer Research and Development

基金国家自然科学基金项目(62103420,62103428,62306329) 湖南省自然科学基金项目(2021JJ40702,2023JJ40676)。

关键词深度强化学习探索内在动机内在奖励启发式 deep reinforcement learning(DRL) exploration intrinsic motivation intrinsic rewards heuristic

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：461
2万里鹏,兰旭光,张翰博,郑南宁.深度强化学习理论及其应用综述[J].模式识别与人工智能,2019,32(1):67-81. 被引量：67
3文载道,王佳蕊,王小旭,潘泉.解耦表征学习综述[J].自动化学报,2022,48(2):351-374. 被引量：6
4章晓芳,周倩,梁斌,徐进.一种自适应的多臂赌博机算法[J].计算机研究与发展,2019,56(3):643-654. 被引量：8
5陈佳盼,郑敏华.基于深度强化学习的机器人操作行为研究综述[J].机器人,2022,44(2):236-256. 被引量：25

二级参考文献31

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：612
5赵凤飞,覃征.一种多动机强化学习框架[J].计算机研究与发展,2013,50(2):240-247. 被引量：6
6刘全,傅启明,杨旭东,荆玲,李瑾,李娇.一种基于智能调度的可扩展并行强化学习方法[J].计算机研究与发展,2013,50(4):843-851. 被引量：3
7余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：606
8傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
9黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
10杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28

共引文献540

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：10
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：42
6钟玮琦,喻仁虹,李明柱.基于DDPG算法的供热末端运行策略研究[J].暖通空调,2022,52(S02):170-174.
7周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
8林宝玲,贾日恒,林飞龙,郑忠龙,李明禄.基于预算时变的多臂赌博机模型[J].计算机科学,2022,49(S02):175-180. 被引量：1
9李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
10王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.

同被引文献2

1寿步.人工智能中agent的中译正名及其法律意义[J].科技与法律（中英文）,2022(3):1-13. 被引量：7
2刘晓青.符号人工智能的观念起源研究——基于霍布斯机械唯物论的分析[J].北京师范大学学报（社会科学版）,2022(5):146-152. 被引量：2

引证文献1

1周涛,李鑫,周俊临,李奕.大模型智能体:概念、前沿和产业实践[J].电子科技大学学报（社科版）,2024,26(4):57-62.

1王剑峰.混合式学习探索[J].小学科学,2023(23):25-27.
2张超,白文松,杜歆,柳伟杰,周晨浩,钱徽.模仿学习综述:传统与新进展[J].中国图象图形学报,2023,28(6):1585-1607.
3李全军,丁勇.全景测绘技术在市政工程建设中的应用分析[J].中文科技期刊数据库（全文版）工程技术,2023(9):178-181.
4毕彦彦.智慧教室环境下的中学信息技术个性化学习探究[J].大众文摘,2023(34):81-83.
5王艳.分析对比中药饮片和中药配方颗粒的应用效果[J].中国科技期刊数据库医药,2023(10):174-176.
6庹妮妮.为“小练笔”搭建学习支架——以统编语文教材四年级下册《猫》为例[J].湖南教育（中旬）（B）,2023(8):62-63.
7于亮,丁峰,龚开.基于强化学习的船舶微电网能量管理策略[J].船舶工程,2023,45(5):98-102. 被引量：1
8李倩文,李勇,王艳清,林静.基于无人机低空遥感的地质灾害详查技术[J].科技与创新,2023(17):153-155. 被引量：3
9程伟,李鑫.重新估价新时代“中西医结合”的战略地位[J].工程研究（跨学科视野中的工程）,2023,15(1):41-49. 被引量：1
10康杰.美西方学界对推动共建“一带一路”高质量发展的认知与评价[J].国外理论动态,2023(4):3-10.

计算机研究与发展

2023年第10期

浏览历史

内容加载中请稍等...

基于内在动机的深度强化学习探索方法综述被引量：1

参考文献5

二级参考文献31

共引文献540

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于内在动机的深度强化学习探索方法综述 被引量：1

参考文献5

二级参考文献31

共引文献540

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于内在动机的深度强化学习探索方法综述被引量：1