基于逐次超松弛技术的Double Speedy Q-Learning算法被引量：1

Double Speedy Q-Learning Based on Successive Over Relaxation

下载PDF

导出

摘要 Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行改进,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考虑随机环境中存在的自循环结构,即代理执行动作时,存在进入当前状态的概率,这将不利于代理在随机环境中学习,从而影响算法的收敛速度。针对Double Speedy Q-Learning中存在的自循环结构,利用逐次超松弛技术对Double Speedy Q-Learning算法的Bellman算子进行改进,提出基于逐次超松弛技术的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),进一步提升了Double Speedy Q-Learning算法的收敛速度。通过数值实验将DSQL-SOR与其他算法的实际奖励和期望奖励之间的误差进行对比,实验结果表明,所提算法比现有主流的算法SQL的误差低0.6,比逐次超松弛算法GSQL低0.5,这表明DSQL-SOR算法的性能较其他算法更优。实验同时对DSQL-SOR算法的可拓展性进行测试,当状态空间从10增加到1000时,每次迭代的平均时间增长缓慢,始终维持在10^(-4)数量级上,表明DSQL-SOR的可拓展性较强。 Q-Learning is a mainstream reinforcement learning algorithm atpresent,but its convergence speed is poor in random environment.Previous studies have improved the overestimation problem of Spee-dy Q-Learning,and have proposed Double Speedy Q-Learning algorithm.However,the Double Speedy Q-Learning algorithm does not consider the self-loop structure exis-ting in the random environment,that is,the probability of entering the current state when the agent performs an action,which will not be conducive to the agent’s learning in the random environment,thereby affecting the convergence speed of the algorithm.Aiming at the self-loop structure existing in Double Speedy Q-Learning,the Bellman operator of Double Speedy Q-Learning algorithm is improved by using successive over-relaxation technology,and the Double Speedy Q-Learning algorithm based on successive over relaxation(DSQL-SOR)is proposed to further improve the convergence speed of the Double Speedy Q-Learning algorithm.By using numerical experiments to compare the error between the actual rewards and expected rewards of DSQL-SOR and other algorithms,the experimental results show that the proposed algorithm has a lower error of 0.6 than the existing mainstream algorithm SQL,which is lower than the successive over-relaxation algorithm GSQL 0.5,indicating that the performance of the DSQL-SOR algorithm is better than other algorithms.The experiment also tests the scalability of the DSQL-SOR algorithm.When the state space is increased from 10 to 1000,the average time of each iteration increases slowly,always maintaining at the magnitude of 10^(-4),indicating that DSQL-SOR has strong scalability.

作者周琴罗飞丁炜超顾春华郑帅 ZHOU Qin;LUO Fei;DING Wei-chao;GU Chun-hua;ZHENG Shuai(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

机构地区华东理工大学信息科学与工程学院

出处《计算机科学》 CSCD 北大核心 2022年第3期239-245,共7页 Computer Science

基金国家自然科学基金(61472139) 上海汽车工业科技发展基金会产学研课题(1915)。

关键词强化学习 Q-LEARNING 马尔可夫决策过程逐次超松弛迭代法自循环结构 Reinforcement learning Q-Learning Markov decision process(MDP) Successive over relaxation(SOR) Self-loop structure

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1郑帅,罗飞,顾春华,丁炜超,卢海峰.基于双估计器的改进Speedy Q-learning算法[J].计算机科学,2020,47(7):179-185. 被引量：5
2Fei-Yue Wang,Jun Jason Zhang,Xinhu Zheng,Xiao Wang,Yong Yuan,Xiaoxiao Dai,Jie Zhang,Liuqing Yang.Where Does AlphaGo Go: From Church-Turing Thesis to AlphaGo Thesis and Beyond[J].IEEE/CAA Journal of Automatica Sinica,2016,3(2):113-120. 被引量：46

二级参考文献3

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：311
2王飞跃.平行控制:数据驱动的计算控制方法[J].自动化学报,2013,39(4):293-302. 被引量：126
3王飞跃.复杂性与智能化:从Church-Turning Thesis到AlphaGo Thesis及其展望(2)[J].指挥与控制学报,2016,2(2):89-92. 被引量：3

共引文献49

1吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：25
2孙烨超,马和民.教育数字化转型的挑战及其治理路径分析[J].中国教育政策评论,2022(1):60-76. 被引量：2
3陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,2(2):114-120. 被引量：72
4王志宏,杨震.人工智能技术研究及未来智能化信息服务体系的思考[J].电信科学,2017,33(5):1-11. 被引量：75
5王曙光,张珍.基于Strength模型的围棋棋子价值评估方法[J].科学技术与工程,2017,17(18):248-252. 被引量：1
6胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].科技导报,2017,35(21):49-60. 被引量：34
7马永龙.基于全舰计算环境的智能化舰载指控系统技术研究[J].舰船电子工程,2018,38(10):28-33. 被引量：3
8崔浩然,李涵,冯煜晶,吴萌,王超,陶冠良,张志敏.面向深度学习的SoC架构设计与仿真[J].计算机工程与科学,2019,41(1):14-23.
9王浩,黄美鑫,武志薪,鞠建敏.基于GRU递归神经网络的城市道路超车预测[J].中国科技论文,2019,14(3):285-290. 被引量：5
10莫凡,周神保.智能语音技术发展对公共通信安全的影响研究[J].广东通信技术,2019,39(6):26-29. 被引量：3

同被引文献5

1刘师桥,张波,唐芳月,宋艺,刘语涵,王丰林.基于光电容积法的心率监测模块设计[J].电脑编程技巧与维护,2018(4):137-139. 被引量：3
2汪雄,陈玉林,张恒亮,王垒,黄国虎,刘鸿优.光电容积脉搏波描记法(PPG)测试足球运动员赛时心率的准确性研究[J].电子世界,2018,0(17):58-58. 被引量：8
3张长春,胡乃瑞,袁怀通,李露.健康监测手环系统的设计[J].电子测试,2019,30(11):50-52. 被引量：8
4张振强,陈真诚,顾爽,韩慧茹.基于光电容积脉搏波的心血管多参数检测系统[J].科学技术与工程,2021,21(20):8383-8388. 被引量：9
5刘倩颖.基于非接触式/穿戴式睡眠监测设备的标准化研究[J].中国标准化,2021(21):77-80. 被引量：1

引证文献1

1谢世婷,林诗楠,江尚容,董博文,王甬,张静.基于PPG光电容积脉搏波睡眠耳机的研究[J].物联网技术,2023,13(3):104-107. 被引量：1

二级引证文献1

1杨力.基于ARM的健康监测系统设计[J].电子制作,2023,31(22):97-99.

1李阳,杨立荣,朱学斌,杨春梅.汽车传动系统滚动轴承力学特性计算[J].工业技术创新,2021,8(4):104-108.
2高鹏,苏雍贺,左颖,陶飞.基于强化学习的分布式光伏运维资源动态调度[J].计算机集成制造系统,2022,28(2):552-563. 被引量：1
3杨斌,王辛果.一种基于增强学习的飞行自组网地理路由协议[J].计算机科学与应用,2022,12(2):304-314.
4曾柏森,钟勇,牛宪华.基于因子分解机用于安全探索的Q表初始化方法[J].计算机应用,2022,42(1):209-214.
5李文武,马浩云,贺中豪,徐康.基于n步Q-learning算法的风电抽水蓄能联合系统日随机优化调度研究[J].水电能源科学,2022,40(1):206-210. 被引量：2
6袁月,宇振盛.基于MSSOR求解信号恢复问题的ADMM算法[J].应用数学进展,2021,10(11):3932-3941. 被引量：1
7谭晓军,何建佳,王维祺.基于Q-Learning算法的产业互联协同调度研究[J].工业工程与管理,2021,26(6):171-178. 被引量：2
8刘星,张文娟,廖帅元.基于深度强化学习算法的财务机器人任务分配的研究[J].中国管理信息化,2022,25(1):42-46. 被引量：1
9姚玉坤,张本俊,周杨.无人机自组网中基于Q-learning算法的及时稳定路由策略[J].计算机应用研究,2022,39(2):531-536. 被引量：6
10李传煌,陈泱婷,唐晶晶,楼佳丽,谢仁华,方春涛,王伟明,陈超.QL-STCT:一种SDN链路故障智能路由收敛方法[J].通信学报,2022,43(2):131-142.

计算机科学

2022年第3期

浏览历史

内容加载中请稍等...

基于逐次超松弛技术的Double Speedy Q-Learning算法被引量：1

参考文献2

二级参考文献3

共引文献49

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于逐次超松弛技术的Double Speedy Q-Learning算法 被引量：1

参考文献2

二级参考文献3

共引文献49

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于逐次超松弛技术的Double Speedy Q-Learning算法被引量：1