期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
SDN环境下基于QLearning算法的业务划分路由选路机制 被引量:5
1
作者 金子晋 兰巨龙 +2 位作者 江逸茗 孙鹏浩 魏鹏 《网络与信息安全学报》 2018年第9期17-22,共6页
随着当前网络的多元化发展,用户对于网络的需求也不断增加,网络的承载性受到极大挑战。在软件定义网络环境下,提出一种以业务属性为依据、基于QLearning算法的路由选路机制,设计了链路发现、链路分类、强化学习训练及Q值表下发4个模块,... 随着当前网络的多元化发展,用户对于网络的需求也不断增加,网络的承载性受到极大挑战。在软件定义网络环境下,提出一种以业务属性为依据、基于QLearning算法的路由选路机制,设计了链路发现、链路分类、强化学习训练及Q值表下发4个模块,根据网络的实施情况对不同属性的业务流分配不同的路径以保障用户路由的QoS。实验结果表明,所提算法可使数据流的总体分组丢失率低于5%,对于部分属性的业务流可接近0分组丢失,同时对于时延也有大幅降低。 展开更多
关键词 SDN qlearning算法 业务属性分类 多路径路由
下载PDF
基于Qlearning的单点信号配时方案选择算法
2
作者 朱海峰 《公路与汽运》 2022年第1期44-47,共4页
为提高单点控制交叉口时段内信号配时的准确性,采用强化学习方法构建时段内信号配时优化模型。该模型以时段内原始固定信号配时方案为基准,向其上下区域探索建立状态空间及动作空间,同时以时段内交通状态为依据,设置常规及异常状态开关... 为提高单点控制交叉口时段内信号配时的准确性,采用强化学习方法构建时段内信号配时优化模型。该模型以时段内原始固定信号配时方案为基准,向其上下区域探索建立状态空间及动作空间,同时以时段内交通状态为依据,设置常规及异常状态开关,用于区分学习常规及异常状态下Q值表,并在回报函数上进行特别设置,以快速响应交通的短期突变及长期缓慢变化,减少因交通环境变化导致Q值表不能及时适应交通状况的现象。最后通过仿真对该算法的有效性进行验证,结果表明采用该算法能生成合理的配时方案,且可将交叉口车辆总延误降低24%。 展开更多
关键词 城市交通 交叉口 信号配时 qlearning
下载PDF
Constrained Multi-Objective Optimization With Deep Reinforcement Learning Assisted Operator Selection
3
作者 Fei Ming Wenyin Gong +1 位作者 Ling Wang Yaochu Jin 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第4期919-931,共13页
Solving constrained multi-objective optimization problems with evolutionary algorithms has attracted considerable attention.Various constrained multi-objective optimization evolutionary algorithms(CMOEAs)have been dev... Solving constrained multi-objective optimization problems with evolutionary algorithms has attracted considerable attention.Various constrained multi-objective optimization evolutionary algorithms(CMOEAs)have been developed with the use of different algorithmic strategies,evolutionary operators,and constraint-handling techniques.The performance of CMOEAs may be heavily dependent on the operators used,however,it is usually difficult to select suitable operators for the problem at hand.Hence,improving operator selection is promising and necessary for CMOEAs.This work proposes an online operator selection framework assisted by Deep Reinforcement Learning.The dynamics of the population,including convergence,diversity,and feasibility,are regarded as the state;the candidate operators are considered as actions;and the improvement of the population state is treated as the reward.By using a Q-network to learn a policy to estimate the Q-values of all actions,the proposed approach can adaptively select an operator that maximizes the improvement of the population according to the current state and thereby improve the algorithmic performance.The framework is embedded into four popular CMOEAs and assessed on 42 benchmark problems.The experimental results reveal that the proposed Deep Reinforcement Learning-assisted operator selection significantly improves the performance of these CMOEAs and the resulting algorithm obtains better versatility compared to nine state-of-the-art CMOEAs. 展开更多
关键词 Constrained multi-objective optimization deep qlearning deep reinforcement learning(DRL) evolutionary algorithms evolutionary operator selection
下载PDF
基于NDP的遗传算法及其在JSP中的应用 被引量:3
4
作者 金锋 宋士吉 吴澄 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第4期488-491,共4页
遗传算法被广泛应用于求解车间作业调度问题(JSP),但遗传算法具有最优参数难以确定的问题。对此,该文提出了一种基于神经元动态规划(NDP)的遗传算法NDP-GA。该文将遗传算法用M arkov决策过程模型描述,建立了M arkov决策过程最优策略与... 遗传算法被广泛应用于求解车间作业调度问题(JSP),但遗传算法具有最优参数难以确定的问题。对此,该文提出了一种基于神经元动态规划(NDP)的遗传算法NDP-GA。该文将遗传算法用M arkov决策过程模型描述,建立了M arkov决策过程最优策略与遗传算法最优参数之间的联系。在此基础上,用神经元动态规划逼近M arkov决策过程的最优策略,并用学习到的策略指导遗传算法最优参数的选择。数值计算结果表明,该文提出的算法能自动收敛到最优遗传参数,并在求解JSP问题时能稳定地得到满意解。 展开更多
关键词 神经元动态规划 车间作业调度 遗传算法 qlearning
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部