环境感知的自适应深度强化学习路由算法被引量：1

Self-adaptive deep reinforcement learning routing algorithm with environmental perception

下载PDF

导出

摘要针对现有强化学习路由算法未能根据网络负载变化较好权衡动作探索和利用的问题,提出一种基于环境感知的自适应深度强化学习路由算法。依据智能体经验回放时的平均误差,动态调整ε-greedy策略以平衡探索和利用,引入启发式规则限制动作探索以积累正向经验,结合优先经验回放机制加速模型收敛,提升智能体收敛前后的网络吞吐量和数据交付率。仿真结果表明,部署了该算法的网络的吞吐量和数据交付率均高于部署了其它基准算法的网络环境。 Aiming at the problems that the state of the art reinforcement learning algorithms fail to balance the exploration and utilization of actions according to the change of network load,an adaptive deep reinforcement learning routing algorithm with environmental perception was proposed,which dynamically adjustedε-greedy strategy to balance the exploration and utilization,according to the average error through agent experience playback.Some heuristic rules were used to limit exploration space to accumulate positive experience and the priority experience playback mechanism was introduced to accelerate model convergence,in this way network throughput and data delivery rate were improved during the whole process of agent learning.The simulation experiments indicate that the throughput and data delivery rate of the network environment deployed the proposed algorithm are higher than that of the ones deployed other benchmark algorithms.

作者李婧侯诗琪 LI Jing;HOU Shi-qi(College of Computer Science and Technology,Shanghai University of Electric Power,Shanghai 201306,China)

机构地区上海电力大学计算机科学与技术学院

出处《计算机工程与设计》北大核心 2023年第11期3230-3237,共8页 Computer Engineering and Design

基金国家自然科学基金项目(61872230、61572311)。

关键词软件定义网络智能路由路由选择深度强化学习优先经验回放自适应吞吐量 software define network intelligent routing routing selection deep reinforcement learning prioritized experience replay adaptability throughput

分类号 TP393.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘辰屹,徐明伟,耿男,张翔.基于机器学习的智能路由算法综述[J].计算机研究与发展,2020,57(4):671-687. 被引量：19
2杨彤,秦进.基于平均序列累计奖赏的自适应ε-greedy策略[J].计算机工程与应用,2021,57(11):148-155. 被引量：5
3黄庆东,袁润芝,郭民鹏,石斌宇,曹艺苑.改进的低时延全回波Q路由算法[J].系统工程与电子技术,2020,42(4):940-947. 被引量：2
4邵天竺,王晓亮,陈文龙,唐晓岚,徐敏.一种减少网络振动的智能路由选择算法设计[J].计算机研究与发展,2021,58(6):1261-1274. 被引量：3
5沙鑫磊,白光伟,张杰,赵文天,沈航.双学习率自适应的Q路由算法[J].小型微型计算机系统,2019,40(8):1672-1677. 被引量：5
6王桂芝,吕光宏,贾吾财,贾创辉,张建申.机器学习在SDN路由优化中的应用研究综述[J].计算机研究与发展,2020,57(4):688-698. 被引量：6
7丁瑞金,高飞飞,邢玲.基于深度强化学习的物联网智能路由策略[J].物联网学报,2019,3(2):56-63. 被引量：5
8李婧,侯诗琪.基于知识指导的安全强化学习路由算法[J].中国工程机械学报,2022,20(4):288-293. 被引量：1

二级参考文献26

1武美先,张学良,温淑花,郭琴.BP神经网络的双学习率自适应学习算法[J].现代制造工程,2005(10):29-32. 被引量：8
2孙其博,刘杰,黎羴,范春晓,孙娟娟.物联网:概念、架构与关键技术研究综述[J].北京邮电大学学报,2010,33(3):1-9. 被引量：1086
3林闯,胡杰,孔祥震.用户体验质量(QoE)的模型与评价方法综述[J].计算机学报,2012,35(1):1-15. 被引量：152
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：616
5孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2391
6左青云,陈鸣,赵广松,邢长友,张国敏,蒋培成.基于OpenFlow的SDN技术研究[J].软件学报,2013,24(5):1078-1097. 被引量：420
7张顺淼,邹复民.软件定义网络研究综述[J].计算机应用研究,2013,30(8):2246-2251. 被引量：72
8谢小民,王兴伟,温占考,黄敏.一种面向认知网络的QoS路由协议[J].计算机学报,2013,36(9):1807-1815. 被引量：15
9曹健,王兴伟,张金宏,黄敏.数据驱动的信息中心网络认知路由协议[J].计算机研究与发展,2015,52(4):798-805. 被引量：4
10YAN Jinyao,ZHANG Hailong,SHUAI Qianjun,LIU Bo,GUO Xiao.HiQoS:An SDN-Based Multipath QoS Solution[J].China Communications,2015,12(5):123-133. 被引量：20

共引文献33

1邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：3
2本刊特约评论员.让中小企业火起来[J].经济管理,2000,26(4):4-7. 被引量：7
3戴彬,曹园园,莫益军.未来网络场景及需求分析综述[J].电信科学,2019,35(8):39-48. 被引量：4
4杨俊峰,宋圆隆,王桂枝.自动驾驶网络研究综述[J].现代计算机,2020,26(16):46-54. 被引量：2
5牟治宇,张煜,范典,刘君,高飞飞.基于深度强化学习的无人机数据采集和路径规划研究[J].物联网学报,2020,4(3):42-51. 被引量：9
6蒋天超,沈世元.一种VDC场景下NAT与专网路由共存的实现方案[J].广东通信技术,2020,40(10):14-16.
7黄庆东,张淼,袁润芝,陈晨.基于Q学习的能量自适应路由算法[J].西安邮电大学学报,2020,25(4):48-52. 被引量：2
8李新桐,张亚生.一种适用于低轨卫星的SDN网络人工智能路由方法[J].电子测量技术,2020,43(22):109-114. 被引量：10
9杨志军,毛磊,丁洪伟,刘征.区分优先级业务的非对称两级轮询系统特性分析[J].现代电子技术,2021,44(7):11-16.
10龚方生.基于深度学习的计算机网络数据包路由策略[J].网络安全技术与应用,2021(5):22-24.

同被引文献12

1刘建业,孙应统,邢瑞阳,王华,李晓超.面向多任务的预警卫星系统效能评估[J].上海航天,2019,36(1):10-15. 被引量：6
2贾晓阳,韩莹莹.商业遥感卫星的应用及发展趋势[J].科技资讯,2020,18(18):11-12. 被引量：2
3唐嘉钰,李相民,代进进,薄宁.复杂约束条件下异构多智能体联盟任务分配[J].控制理论与应用,2020,37(11):2413-2422. 被引量：11
4刘振,张梅.常见几种分布随机数产生原理及实现途径[J].中阿科技论坛（中英文）,2020(11):95-97. 被引量：2
5张祥文,陈正伟.WGS84与CGCS2000坐标的精密转换方法和程序实现[J].海洋技术学报,2020,39(6):1-7. 被引量：5
6张森,张孟炎,邵敬平,普杰信.基于随机策略搜索的多机三维路径规划方法[J].系统仿真学报,2022,34(6):1286-1295. 被引量：2
7张飞,陈小前,曹璐,覃江毅,汤敏,郭鹏宇,冉德超.天基边缘计算系统设计及关键技术[J].上海航天（中英文）,2022,39(4):139-146. 被引量：2
8丁玮,翟艺伟.基于深度强化学习的多无人机自主决策算法[J].电子设计工程,2022,30(23):104-107. 被引量：3
9张严心,孔涵,殷辰堃,王子豪,黄志清.一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法[J].北京工业大学学报,2023,49(4):459-466. 被引量：3
10汪昊,冉泳屹,赵雷,王俊霞,雒江涛,张涛.基于深度图强化学习的低轨卫星网络动态路由算法[J].重庆邮电大学学报（自然科学版）,2023,35(4):596-605. 被引量：3

引证文献1

1王桢朗,何慧群,周军,金云飞.基于多智能体深度强化学习的多星观测任务分配方法[J].上海航天（中英文）,2024,41(1):108-115.

1高甲博,肖玮,何智杰.P3C-MADDPG算法的多无人机协同追捕对抗策略研究[J].指挥控制与仿真,2023,45(6):7-18.
2邢博闻,张昭夷,王世明,娄嘉奕,王五桂.基于深度强化学习的多无人艇协同目标搜索算法[J].兵器装备工程学报,2023,44(11):118-125. 被引量：1
3孙国强,殷岩岩,卫志农,臧海祥,楚云飞.基于深度确定性策略梯度的主动配电网有功-无功协调优化调度[J].电力建设,2023,44(11):33-42. 被引量：4
4崔立志,钟航,董文娟.基于改进优先经验回放的SAC算法路径规划[J].空间控制技术与应用,2023,49(5):55-64. 被引量：1
5劳天成,刘义,范文慧.多智能体深度确定性策略梯度算法研究与改进[J].新疆大学学报（自然科学版）（中英文）,2023,40(6):717-723. 被引量：1
6尹欢.智能低压电力线通信网络可靠性分析方法研究[J].电气技术与经济,2023(9):41-43. 被引量：1
7郑岚,徐丽萍.改进DQN算法在WSNs资源分配中的应用[J].成都工业学院学报,2023,26(6):56-60. 被引量：1
8梁爽,刘丹丹,季堂煜.基于微调式结构化剪枝的架空输电线路绝缘子检测算法[J].电力信息与通信技术,2023,21(11):1-6.
9张皛.基于前缀劫持及路由更改对BGP产生的影响[J].工业控制计算机,2023,36(11):35-36.
10张卫正,陈赛越扬,王艳玲,帖金鑫,丁佳,李萌,李灿林,苏晓珂,甘勇.基于YOLOv3改进算法的烟叶原料烟草甲识别方法研究[J].河南农业科学,2023,52(11):157-166. 被引量：1

计算机工程与设计

2023年第11期

浏览历史

内容加载中请稍等...

环境感知的自适应深度强化学习路由算法被引量：1

参考文献8

二级参考文献26

共引文献33

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

环境感知的自适应深度强化学习路由算法 被引量：1

参考文献8

二级参考文献26

共引文献33

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

环境感知的自适应深度强化学习路由算法被引量：1