RLAR:基于增强学习的自适应路由算法被引量：1

RLAR:Adaptive routing algorithm based onreinforcement learning

下载PDF

导出

摘要针对当前各种路由算法在广域网环境下由于不能适应各种拓扑环境和负载不均衡时所引起的路由性能不高等问题,提出了一种基于梯度上升算法实现的增强学习的自适应路由算法RLAR。增强学习意味着学习一种策略,即基于环境的反馈信息构造从状态到行为的映射,其本质为通过与环境的交互试验对策略集合进行评估。将增强学习策略运用于网络路由优化中,为路由研究提供了一种全新的思路。对比了多种现有的路由算法,实验结果表明,RLAR能有效提高网络路由性能。 Aimed at the poor performance of the current various routing algorithms,due to the poor adaptability to various changing net-work topologies and loads,an adaptive routing algorithm called RLAR is proposed,and the algorithm is based on reinforcement learning which implemented by gradient ascent algorithm.Reinforcement learning means learning a policy that a mapping of states into actions which based on feedback from the environment.The learning can be viewed as browsing a set of policies while evaluating them by trial through interaction with the environment.Applying the reinforcement learning strategy to the research of routing,as a novel method,the theory is proved.The performance of RLAR and other routing methods is comprehensively compared,lots of simulation results show that RLAR can remarkably enhance the performance of network routing.

作者郑力明李晓冬李小勇

机构地区武警成都指挥学院信息技术教研室国防科技大学计算机学院并行与分布处理国家重点实验室武警成都指挥学院科研科

出处《计算机工程与设计》 CSCD 北大核心 2011年第4期1190-1194,共5页 Computer Engineering and Design

基金国家973重点基础研究发展计划基金项目(2005CB321801) 国家自然科学基金项目(60873215 60621003) 高等学校博士学科点专项科研基金项目(200899980003)

关键词增强学习路由梯度上升马尔可夫决策过程自适应 reinforcement learning routing gradient ascent MDP adaptive

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1Humphrys M. Action selection methods using reinforcement learning[D].Cambridge:University of Cambridge, 1996.
2Kaelbling L P.Reinforcement learning:A survey[C].Artificial In- telligence Research, 1996:237-285.
3Tesauro G.J.Temporal difference learning and TD-gammon[J].Communications of the ACM,1995,38:58-68.
4Crites R H,Barto A G.Elevator group control using multiple rein- forcement learning agents [J]. Machine Learning, 1998,32: 235-262.
5Marbach P, Mihatsch O, Schulte M, et al. Reinforcementlearning for call admission control and routing in integratedservice networks[C].lEEE Conference on Decision and Con-tro1,1998.
6Carlstrom J. Reinforcement learning for admisson control androuting [D].Uppsala,Sweden:Uppsala University,2000.
7Brown T X, Tong H, Singh S P. Optimizing admission controlwhile ensuring quality of service in multimedia networks viareinforcement learning[J].Advances in Neural Information Pro-cessing Systems, 1999,12:982-988.
8Boyan J,Littman M L.Packet routing in dynamically changingnetworks: A reinforcement learning approach [J]. Advances inNeural Information Processing Systems,1994,7:671-678.
9Wolpert D H,Tumer K,Frank J.Using collective intelligence toroute intemet traffic[J].Advances in Neural Information Proces-sing Systems, 1998,11:952-958.
10Nigel J B,Tao,Weaver L.A multi-agent,policy gradient approachto network routing[C].Proc of the Eighteenth International Con-ference on Machine Learning,2001.

同被引文献7

1姚怡,覃华,苏一丹.基于Q-Learning的自适应容错路由算法的研究[J].计算机工程与应用,2006,42(10):123-125. 被引量：2
2周文佳,陈旿,肖迪,张鹏飞,慕德俊.MANET网络中一种基于灰色区域的移动预测路由协议及多径备份路由扩展[J].西北工业大学学报,2012,30(5):739-745. 被引量：7
3王靖,李芳芳,于全.基于链路状态感知的无线Mesh网优化路由协议[J].计算机科学,2012,39(11):37-40. 被引量：10
4沈玮阳,刘强,欧阳峰.基于节点稳定性与跨层优化的MANET路由设计[J].计算机工程,2017,43(10):44-49. 被引量：3
5刘强,阮章静.基于模糊视觉与快速路由的移动自组织网络路由协议FH-OLSR[J].北京交通大学学报,2017,41(5):24-31. 被引量：5
6张德干,葛辉,刘晓欢,张晓丹,李文斌.一种基于Q-Learning策略的自适应移动物联网路由新算法[J].电子学报,2018,46(10):2325-2332. 被引量：18
7刘芬,隋天宇,王叶群.基于Q学习的Ad Hoc网络路由协议的改进与研究[J].计算机与数字工程,2019,47(2):373-376. 被引量：4

引证文献1

1熊轲,金鑫,刘强.QL-OLSR:一种基于Q-Learning思想优化的移动自组织网络路由协议[J].北京交通大学学报,2020,44(2):66-73. 被引量：7

二级引证文献7

1余北缘,刘建伟,周子钰.自组织网络环境下的节点认证机制研究[J].信息网络安全,2020(12):9-18. 被引量：3
2姚玉坤,何亮,任智,李维政,周佳琦.LLN中基于移动节点邻居探测的高效路由寻路算法[J].系统工程与电子技术,2021,43(11):3390-3398. 被引量：3
3张晓东,韩卫占,张平.基于多传输手段的自组网路由协议研究[J].河北工业科技,2021,38(6):454-459.
4严其飞,罗颖光,张阳.基于链路监视的移动自组网路由策略[J].指挥控制与仿真,2022,44(6):119-124.
5李小玲,沈文娟,周新卫.自组织网络数据传输最短路径路由算法仿真[J].计算机仿真,2022,39(10):391-394. 被引量：1
6王柄焱,郑向平,贾文杰,李大鹏.基于链路质量与节点负载估计的Q学习UANET路由协议[J].移动通信,2023,47(10):17-23.
7陈立伟,简依雯,王桐,欧阳敏,高山.面向任务的无人飞行器自组网OLSR协议[J].应用科技,2024,51(1):112-119.

1宋辰,奚宏生.视频服务节点共享资源池的分布式最优控制[J].计算机工程,2015,41(3):71-76. 被引量：1
2徐洪章,郝宁波,廖海斌.融合互信息与线性变换的非线性特征提取[J].计算机工程与应用,2011,47(36):222-225.
3李其申,徐媛.基于频域的遥感图像互信息配准方法[J].计算机工程与应用,2009,45(35):161-163.
4鲁玲,方平,刘辉,李网锁.基于OPC的Matlab与组态软件MCGS数据交换[J].三峡大学学报（自然科学版）,2010,32(2):92-94. 被引量：2
5徐洪章,牛小梅,廖海斌.一种互信息梯度不变的非线性特征提取方法[J].计算机应用研究,2010,27(12):4495-4497.
6王朝晖,陈恳,朱心雄.一种虚拟人作业行为的自主优化模型[J].软件学报,2012,23(9):2358-2373. 被引量：7
7王扬,黄亚楼,卢敏,庞晓东,谢茂强,刘杰.直接优化性能指标的多排序模型融合方法[J].计算机学报,2014,37(8):1658-1668. 被引量：3
8李强,陶辅周.ORACLE中SQL查询语句的优化[J].计算机应用研究,1994,11(4):17-21.
9罗国友.高中英语语法教学中情境教学策略的运用[J].中学生英语（中旬刊）,2015,0(9):69-69. 被引量：3
10王朝阳.论职业中专计算机教学中自主学习策略的运用[J].读书文摘（中）,2016(2):209-210. 被引量：2

计算机工程与设计

2011年第4期

浏览历史

内容加载中请稍等...

RLAR:基于增强学习的自适应路由算法被引量：1

参考文献22

同被引文献7

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

RLAR:基于增强学习的自适应路由算法 被引量：1

参考文献22

同被引文献7

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

RLAR:基于增强学习的自适应路由算法被引量：1