基于最小二乘的双权重学习法被引量：1

Double Weighted Learning Algorithm Based on Least Squares

下载PDF

导出

摘要强化学习是人工智能领域中的一个研究热点。在求解强化学习问题时,传统的最小二乘法作为一类特殊的函数逼近学习方法,具有收敛速度快、充分利用样本数据的优势。通过对最小二乘时序差分算法(Least-Squares Temporal Difference,LSTD)的研究与分析,并以该方法为基础提出了双权重最小二乘Sarsa算法(Double Weights With Least Squares Sarsa,DWLS-Sarsa)。DWLS-Sarsa算法将两权重通过一定方式进行关联得到目标权重,并利用Sarsa方法对时序差分误差进行控制。在算法训练过程中,两权重会因为更新样本的不同而产生不同的值,保证了算法可以有效地进行探索;两权重也会因为样本数据的分布而逐渐缩小之间的差距直到收敛至同一最优值,确保了算法的收敛性能。最后将DWLS-Sarsa算法与其他强化学习算法进行实验对比,结果表明DWLS-Sarsa算法具有较优的学习性能与鲁棒性,可以有效地处理局部最优问题并提高算法收敛时的表现效果。 Reinforcement Learning is one of the most challenging and difficult concerns in the field of artificial intelligence.Least-squares method is one of the advanced function approximate methods that can be used to solve the problem of reinforcement learning.It has advantages of fast convergence rate and sufficient utilization of sample data.After the study and analysis of least squares temporal diffe-rence algorithm(LSTD),this paper proposes a double weights with least-squares Sarsa algorithm(DWLS-Sarsa)based on the LSTD algorithm.DWLS-Sarsa combines two weights in a certain way and takes control of temporal diffe-rence error with Sarsa methods.During the training process,two weights will produce different values because of the difference in the updated samples and will gradually narrow the gap between the two weights until they converge to the same optimal value duo to the distribution of the sample data.So that the exploration performance and convergence of the algorithm will be ensured.Finally,DWLS-Sarsa algorithm is applied to the experiment and compared with other reinforcement learning algorithms.The experimental results show that DWLS-Sarsa algorithm can deal with local optimum problems effectively to achieve more precise convergence value and has better learning performance and robustness.

作者李斌刘全 LI Bin;LIU Quan(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China;Provincial Key Laboratory for Computer Information Processing Technology,Soochow University,Suzhou,Jiangsu 215006,China;Collaborative Innovation Center of Novel Software Technology and Industrialization,Nanjing 210000,China;Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry Education,Jilin University,Changchun 130012,China)

机构地区苏州大学计算机科学与技术学院苏州大学江苏省计算机信息处理技术重点实验室软件新技术与产业化协同创新中心吉林大学符号计算与知识工程教育部重点实验室

出处《计算机科学》 CSCD 北大核心 2020年第12期210-217,共8页 Computer Science

基金国家自然科学基金(61772355,61702055,61502323,61502329) 江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004) 吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18) 苏州市应用基础研究计划工业部分(SYG201422)。

关键词强化学习函数逼近最小二乘时序差分 Sarsa Reinforcement learning Function approximation Least-squares Temporal difference Sarsa

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1Teng Liu,Bin Tian,Yunfeng Ai,Li Li,Dongpu Cao,Fei-Yue Wang.Parallel Reinforcement Learning:A Framework and Case Study[J].IEEE/CAA Journal of Automatica Sinica,2018,5(4):827-835. 被引量：10
2金玉净,朱文文,伏玉琛,刘全.基于Tile Coding编码和模型学习的Actor-Critic算法[J].计算机科学,2014,41(6):239-242. 被引量：3
3周鑫,刘全,傅启明,肖飞.一种批量最小二乘策略迭代方法[J].计算机科学,2014,41(9):232-238. 被引量：9
4杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：51
5赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：63

二级参考文献28

1王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：236
2Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].MIT Press,1998.
3Busoniu L,Babuska R,DeSchutter B,et al.Reimforcement Leaming and Dynamic Programming Using Function Approximators[M].Boca Raton,FL:CRC Press,2010.
4Grondman I,Busoniu L,et al.A Survey of Actor-Critic Reinforcement Learning:Standard and Natural Policy Gradients[J].IEEE Transactions on Systems,Man,and Cybernetics—Part C:Applications and Reviews,2012,42(6):1291-1307.
5Barto A G,Sutton R S,Anderson C W.Neuronlike Adaptive Element That Can Solve Difficult Learning Control Problems[J].IEEE Trans Syst Man Cybem,1983,13:834-846.
6Konda V R,Tsitsiklis J N.Actor-Critic Algorithms[C]// Proceedings of Advances in Neural Information Processing Systems.2000.
7Rosenstein M T,Barto A G.Supervised Learning Combined with an Actor-Critic Architecture[J].CMPSCI Technical Report 02-41.October 2002.
8Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7-9):1180-1190.
9Bathnagar S,Sutton R S,Ghavamzadeh M,et al.Natural actor critic algorithms[J].Automatica,2009,45 (11):2471-2482.
10Vamvoudakis K G,Lewis F L.Online actor-critic algorithm to solve the continuous-time infinite horizon optimal control problem[J].Automatica,2010,46(5):878-888.

共引文献130

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：47
2唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：22
3谢育星,陆屹,管聪,纪德东.协同空战与多智能体强化学习下的关键问题[J].飞机设计,2023,43(1):6-10.
4王万富,王琢,刘佳鑫,韩亚辉,李春波.基于Qt/Embedded的农林智能装备导航定位算法研究及软件设计[J].国外电子测量技术,2022,41(3):63-68. 被引量：5
5王磊.图书订货会迈入成熟期[J].中国出版,2000(2):25-26.
6戈军,周莲英.面向交通信号的两层递阶控制解决方案[J].计算机工程与应用,2015,51(20):246-252. 被引量：1
7潘建平,黄文准,王盛玺,张香成.基于集群系统高频帧测速数据处理技术[J].电光与控制,2017,24(4):71-75.
8黄小燕.基于经验回放Q-Learning的最优控制算法[J].计算机工程与设计,2017,38(5):1352-1355. 被引量：6
9季挺,张华.基于状态聚类的非参数化近似广义策略迭代增强学习算法[J].控制与决策,2017,32(12):2153-2161. 被引量：1
10季挺,张华.基于Dyna框架的非参数化近似策略迭代增强学习[J].计算机应用,2018,38(5):1230-1238.

同被引文献14

1李文宽,刘培玉,朱振方,刘文锋.基于卷积神经网络和贝叶斯分类器的句子分类模型[J].计算机应用研究,2020,37(2):333-336. 被引量：11
2李子达,廖士中.小样本贝叶斯网络参数学习方法[J].计算机工程,2016,42(8):153-159. 被引量：9
3高晓利,李捷.基于模糊变结构动态贝叶斯网的目标识别方法[J].计算机技术与发展,2017,27(9):17-21. 被引量：2
4彭霞,王直杰,韩芳,顾晓春.基于突触离子通道动力学神经元网络的高效并行仿真算法[J].计算机工程与科学,2018,40(4):609-615. 被引量：1
5向陶然,叶笑春,李文明,冯煜晶,谭旭,张浩,范东睿.基于细粒度数据流架构的稀疏神经网络全连接层加速[J].计算机研究与发展,2019,56(6):1192-1204. 被引量：11
6于海雯,易昕炜,徐少平,张贵珍,刘婷云.两阶段多层感知的随机脉冲噪声比例预测[J].中国图象图形学报,2019,24(7):1042-1054. 被引量：2
7严智,张鹏,谢川.基于Jaya的贝叶斯网络结构学习算法研究[J].计算机工程与应用,2019,55(19):173-177. 被引量：11
8秦兴,高晓琪,陈滨.基于压缩卷积神经网络的图像超分辨率算法[J].电子科技,2020,33(5):1-8. 被引量：9
9胡雪影,郭海儒,朱蓉.基于混合深度卷积网络的图像超分辨率重建[J].计算机应用,2020,40(7):2069-2076. 被引量：9
10计颖聪,李美,张少波,王德志.空气弹簧性能试验台架的设计[J].海南大学学报（自然科学版）,2020,38(3):283-289. 被引量：1

引证文献1

1冯帆.基于贝叶斯网络的车用空气弹簧智能测量与数值分析技术[J].电子设计工程,2022,30(14):34-38. 被引量：1

二级引证文献1

1吴萍.基于多维贝叶斯的造纸过滤筛钻铣数控机床故障诊断方法[J].造纸科学与技术,2023,42(2):46-50. 被引量：2

1尚志刚,徐若灏,乔康加,杨莉芳,李蒙蒙.基于生成模型的Q-learning二分类算法[J].计算机应用研究,2020,37(11):3326-3329. 被引量：1
2张秦浩,敖百强,张秦雪.Q-learning强化学习制导律[J].系统工程与电子技术,2020,42(2):414-419. 被引量：24
3赵立杰,邹世达,郭烁,黄明忠.基于正则化随机配置网络的球磨机工况识别[J].控制工程,2020,27(1):1-7. 被引量：14
4王笑宇,郭强,焦克莹.分布式MIMO雷达的目标定位[J].雷达科学与技术,2019,17(1):94-98.
5罗菊,方照东,袁泉.基于集成神经网络的信道估计方法研究[J].重庆邮电大学学报（自然科学版）,2020,32(6):969-975. 被引量：5
6文韬,吉锋,刘丽霞.一种热点敏感的自适应跳跃表[J].西南大学学报（自然科学版）,2020,42(12):1-14.
7张峰,顾一凡.基于近似边界和层次聚类的超多目标进化算法[J].计算机技术与发展,2020,30(12):61-65. 被引量：1
8尹凤杰,褚群森.基于改进蚁群算法的QoS路由研究[J].辽宁大学学报（自然科学版）,2020,47(4):312-318. 被引量：7
9刘锦春,袁建,黄峰,沈惠杰,张春辉,杨理华.一种归一化QPLL的未知时变谐波噪声主动控制算法[J].电子学报,2020,48(11):2186-2195. 被引量：4
10谭雪,张小强,石红国,成嘉琪.基于强化学习的多时隙铁路空车实时调配研究[J].交通运输工程与信息学报,2020,18(4):53-60. 被引量：3

计算机科学

2020年第12期

浏览历史

内容加载中请稍等...

基于最小二乘的双权重学习法被引量：1

参考文献5

二级参考文献28

共引文献130

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于最小二乘的双权重学习法 被引量：1

参考文献5

二级参考文献28

共引文献130

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于最小二乘的双权重学习法被引量：1