近似强化学习算法研究综述被引量：5

Review of Research on Approximate Reinforcement Learning Algorithms

下载PDF

导出

摘要强化学习用于解决无模型情况下的优化决策问题,是实现人工智能的重要技术之一,但传统的表格型强化学习方法难以处理具有大规模、连续空间的控制问题。近似强化学习受到函数逼近思想的启发,对价值函数或策略函数参数化表示,通过参数优化间接获得最优行为策略,在视频游戏、棋类对抗及机器人控制等领域应用效果显著。基于此,对近似强化学习算法的研究现状与应用进展进行了梳理和综述。介绍了近似强化学习相关的基础理论;分类总结了近似强化学习的经典算法及一些相应的改进方法;概述了近似强化学习在机器人控制领域的研究进展,并总结了当前面临的若干主要问题,为后续的研究提供参考。 Reinforcement learning(RL)is one of the most important techniques for artificial intelligence(AI). However,traditional tabular reinforcement learning is difficult to deal with control problems with large scale or continuous space.Approximate reinforcement learning is inspired by the idea of function approximation to parameterize the value function or strategy function, and obtains the optimal strategy indirectly through parameter optimization. It has been widely used in video games, Go game, robot control, etc. and obtained remarkable performance. In view of this, this paper reviews the research status and application progress of approximate reinforcement learning algorithms. Firstly, the basic theory of approximate reinforcement learning is introduced. Then the classical algorithms of approximate reinforcement learning are classified and expounded, including some corresponding improvement methods. Finally, the research progress of approximate reinforcement learning in robotics is summarized, and some major problems are summarized to provide reference for future research.

作者司彦娜普杰信孙力帆 SI Yanna;PU Jiexin;SUN Lifan(School of Information Engineering,Henan University of Science and Technology,Luoyang,Henan 471023,China;School of Information and Communication Engineering,University of Electronic Science and Technology,Chengdu 611731,China)

机构地区河南科技大学信息工程学院电子科技大学信息与通信工程学院

出处《计算机工程与应用》 CSCD 北大核心 2022年第8期33-44,共12页 Computer Engineering and Applications

基金航空科学基金(20185142003) 国家国防基础科学研究计划(JCKY2018419C001)。

关键词强化学习连续空间值函数近似直接策略搜索策略梯度 reinforcement learning continuous space value function approximation direct policy search policy gradient

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1季挺,张华.基于状态聚类的非参数化近似广义策略迭代增强学习算法[J].控制与决策,2017,32(12):2153-2161. 被引量：1
2刘智斌,曾晓勤,徐彦,禹继国.采用资格迹的神经网络学习控制算法[J].控制理论与应用,2015,32(7):887-894. 被引量：4
3张耀中,胡小方,周跃,段书凯.基于多层忆阻脉冲神经网络的强化学习及应用[J].自动化学报,2019,45(8):1536-1547. 被引量：11
4闵华清,曾嘉安,罗荣华,朱金辉.一种状态自动划分的模糊小脑模型关节控制器值函数拟合方法[J].控制理论与应用,2011,28(2):256-260. 被引量：3
5季挺,张华.基于CMAC的非参数化近似策略迭代增强学习[J].计算机工程与应用,2019,55(2):128-136. 被引量：2
6程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
7程玉虎,冯涣婷,王雪松.基于状态-动作图测地高斯基的策略迭代强化学习[J].自动化学报,2011,37(1):44-51. 被引量：6
8周鑫,刘全,傅启明,肖飞.一种批量最小二乘策略迭代方法[J].计算机科学,2014,41(9):232-238. 被引量：9
9钟珊,刘全,傅启明,龚声蓉,董虎胜.一种采用模型学习和经验回放加速的正则化自然行动器评判器算法[J].计算机学报,2019,42(3):532-553. 被引量：3
10朱斐,朱海军,刘全,陈冬火,伏玉琛.一种解决连续空间问题的真实在线自然梯度AC算法[J].软件学报,2018,29(2):267-282. 被引量：5

二级参考文献62

1段凡丁.关于最短路径的SPFA快速算法[J].西南交通大学学报,1994,29(2):207-212. 被引量：57
2孙炜,王耀南.模糊CMAC及其在机器人轨迹跟踪控制中的应用[J].控制理论与应用,2006,23(1):38-42. 被引量：20
3王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
4Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge: The MIT Press, 1998.
5Wang X S, Cheng Y H, Yi J Q. A fuzzy ActorCritic reinforcement learning network. Information Sciences, 2007, 177(18): 3764-3781.
6Xu X, Hu D W, Lu X C. Kernel-based least squares policy iteration for reinforcement learning. IEEE Transactions on Neural Networks, 2007, 18(4): 973-992.
7Lagoudakis M G, Parr R. Least-squares policy iteration. Journal of Machine Learning Research, 2003, 4:1107-1149.
8Konidaris G, Osentoski S. Value Function Approximation in Reinforcement Learning Using the Fourier Basis, Technical Report UM-CS-2008-19, Department of Computer Science, University of Massachusetts Amherst, USA, 2008.
9Mahadevan S, Maggioni M. Value function approximation with diffusion wavelets and Laplacian eigenfunctions. In: Proceedings of the Advances in Neural Information Processing Systems 18. Cambridge, USA: The MIT Press, 2006. 843-850.
10Sugiyama M, Hachiya H, Towell C, Vijayakumar S. Value function approximation on non-linear manifolds for robot motor control. In: Proceedings of the IEEE International Conference on Robotics and Automation. Rome, Italy: IEEE. 2007. 1733-1740.

共引文献36

1程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
2陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
3衷路生,李兵,龚锦红,张永贤,祝振敏.高速列车非线性模型的极大似然辨识[J].自动化学报,2014,40(12):2950-2958. 被引量：27
4王国芳,方舟,李平.基于批量递归最小二乘的自然Actor-Critic算法[J].浙江大学学报（工学版）,2015,49(7):1335-1342. 被引量：3
5吕红芳,顾幸生.基于蚁群神经网络的两级信息融合算法[J].上海交通大学学报,2016,50(8):1323-1330. 被引量：17
6牛亚东,储健,李刚.一种新型淀粉含水量测量方法及仿真[J].天津职业技术师范大学学报,2016,26(3):30-33.
7潘建平,黄文准,王盛玺,张香成.基于集群系统高频帧测速数据处理技术[J].电光与控制,2017,24(4):71-75.
8黄小燕.基于经验回放Q-Learning的最优控制算法[J].计算机工程与设计,2017,38(5):1352-1355. 被引量：6
9季挺,张华.基于状态聚类的非参数化近似广义策略迭代增强学习算法[J].控制与决策,2017,32(12):2153-2161. 被引量：1
10季挺,张华.基于Dyna框架的非参数化近似策略迭代增强学习[J].计算机应用,2018,38(5):1230-1238.

同被引文献23

1王怀江,刘晓平,王刚,韩松.基于改进遗传算法的移动机械臂拣选路径优化[J].北京邮电大学学报,2020(5):34-40. 被引量：21
2张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：49
3于乃功,王琛,默凡凡,蔡建羡.基于Q学习算法和遗传算法的动态环境路径规划[J].北京工业大学学报,2017,43(7):1009-1016. 被引量：17
4齐岳,黄硕华.基于深度强化学习DDPG算法的投资组合管理[J].计算机与现代化,2018(5):93-99. 被引量：13
5梁天新,杨小平,王良,韩镇远.基于强化学习的金融交易系统研究与发展[J].软件学报,2019,30(3):845-864. 被引量：14
6彭玲玲,刘凯.基于改进Q-learning的移动机器人路径规划应用研究[J].中国储运,2019(8):149-150. 被引量：3
7傅丰,王康.基于深度强化学习SAC算法的投资组合管理[J].现代计算机,2020,26(9):45-48. 被引量：2
8秦智慧,李宁,刘晓彤,刘秀磊,佟强,刘旭红.无模型强化学习研究综述[J].计算机科学,2021,48(3):180-187. 被引量：30
9王康,白迪.基于深度强化学习的投资组合管理研究[J].现代计算机,2021,27(1):3-11. 被引量：4
10王鼎新.基于改进Q-learning算法的AGV路径规划[J].电子设计工程,2021,29(4):7-10. 被引量：14

引证文献5

1蒋美英,郑山红.基于深度强化学习TD3算法的投资组合管理[J].信息技术与信息化,2022(9):177-180.
2赵若涵,温树峰,王甜甜,陈泱吟.基于强化学习的电力通信网路由配置优化方法[J].通信电源技术,2023,40(23):97-99.
3宋丽君,周紫瑜,李云龙,侯佳杰,何星.改进Q-Learning的路径规划算法研究[J].小型微型计算机系统,2024,45(4):823-829. 被引量：2
4方欣,栾小丽,刘飞.窗口长度自适应调整的策略迭代最优控制[J].控制理论与应用,2024,41(4):745-750.
5吕林黛,赵胜利,沈心雨,但晨,汪欣.基于机器学习进行智能投资组合优化[J].计算机科学与应用,2023,13(3):349-357.

二级引证文献2

1李明,叶汪忠,燕洁华.基于深度强化学习的沙漠机器人路径规划[J].系统仿真学报,2024,36(12):2917-2925.
2刘甜甜,云红艳,单凯.SDN中基于强化学习的路由算法[J].青岛大学学报(自然科学版),2024,37(4):26-30.

1国子婧,冯旸赫,姚晨蝶,许乃夫.基于人类先验知识的强化学习综述[J].计算机应用,2021,41(S02):1-4. 被引量：2
2冯义,晋斌,陈娜,张辉.计及分布式电源接入的配电网故障恢复方法[J].电器与能效管理技术,2021(12):78-84. 被引量：5
3孔畅.大数据时代下计算机软件技术的应用探析[J].计算机应用文摘,2022,38(7):41-43.
4李振钊,王增平,张玉玺,乔鑫.基于升维线性规划的主动配电网故障区段定位方法[J].电力系统自动化,2021,45(24):122-132. 被引量：16
5计伟,何玉容.一类时间不一致控制问题的值函数[J].理论数学,2022,12(3):411-416.
6杨家琴.舞台技术在艺术创作中的实践与创新[J].喜剧世界（中旬刊）,2021(11):20-21.
7张敏,朱启兵,黄敏.基于可区分度的连续空间属性约简算法研究[J].计算机应用研究,2022,39(4):1013-1018. 被引量：1
8张小月,韩尚君,陶青川,余艳梅.基于改进Q-Learning的路径规划算法[J].现代计算机,2022,28(2):67-72. 被引量：2
9张丹阳,路立敏.科大讯飞限制性股票实施效果分析[J].全国流通经济,2022(3):160-162.
10崔金栋,冉子晗.主动配电网背景下考虑“源-荷”双侧互动的微电网调度方法研究[J].农村电气化,2022(4):63-69. 被引量：4

计算机工程与应用

2022年第8期

浏览历史

内容加载中请稍等...

近似强化学习算法研究综述被引量：5

参考文献10

二级参考文献62

共引文献36

同被引文献23

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

近似强化学习算法研究综述 被引量：5

参考文献10

二级参考文献62

共引文献36

同被引文献23

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

近似强化学习算法研究综述被引量：5