期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Service Function Chain Deployment Algorithm Based on Multi-Agent Deep Reinforcement Learning
1
作者 Wanwei Huang Qiancheng Zhang +2 位作者 Tao Liu YaoliXu Dalei Zhang 《Computers, Materials & Continua》 SCIE EI 2024年第9期4875-4893,共19页
Aiming at the rapid growth of network services,which leads to the problems of long service request processing time and high deployment cost in the deployment of network function virtualization service function chain(S... Aiming at the rapid growth of network services,which leads to the problems of long service request processing time and high deployment cost in the deployment of network function virtualization service function chain(SFC)under 5G networks,this paper proposes a multi-agent deep deterministic policy gradient optimization algorithm for SFC deployment(MADDPG-SD).Initially,an optimization model is devised to enhance the request acceptance rate,minimizing the latency and deploying the cost SFC is constructed for the network resource-constrained case.Subsequently,we model the dynamic problem as a Markov decision process(MDP),facilitating adaptation to the evolving states of network resources.Finally,by allocating SFCs to different agents and adopting a collaborative deployment strategy,each agent aims to maximize the request acceptance rate or minimize latency and costs.These agents learn strategies from historical data of virtual network functions in SFCs to guide server node selection,and achieve approximately optimal SFC deployment strategies through a cooperative framework of centralized training and distributed execution.Experimental simulation results indicate that the proposed method,while simultaneously meeting performance requirements and resource capacity constraints,has effectively increased the acceptance rate of requests compared to the comparative algorithms,reducing the end-to-end latency by 4.942%and the deployment cost by 8.045%. 展开更多
关键词 Network function virtualization service function chain markov decision process multi-agent reinforcement learning
下载PDF
A geospatial service composition approach based on MCTS with temporal-difference learning
2
作者 Zhuang Can Guo Mingqiang Xie Zhong 《High Technology Letters》 EI CAS 2021年第1期17-25,共9页
With the complexity of the composition process and the rapid growth of candidate services,realizing optimal or near-optimal service composition is an urgent problem.Currently,the static service composition chain is ri... With the complexity of the composition process and the rapid growth of candidate services,realizing optimal or near-optimal service composition is an urgent problem.Currently,the static service composition chain is rigid and cannot be easily adapted to the dynamic Web environment.To address these challenges,the geographic information service composition(GISC) problem as a sequential decision-making task is modeled.In addition,the Markov decision process(MDP),as a universal model for the planning problem of agents,is used to describe the GISC problem.Then,to achieve self-adaptivity and optimization in a dynamic environment,a novel approach that integrates Monte Carlo tree search(MCTS) and a temporal-difference(TD) learning algorithm is proposed.The concrete services of abstract services are determined with optimal policies and adaptive capability at runtime,based on the environment and the status of component services.The simulation experiment is performed to demonstrate the effectiveness and efficiency through learning quality and performance. 展开更多
关键词 geospatial service composition reinforcement learning(RL) markov decision process(MDP) Monte Carlo tree search(MCTS) temporal-difference(TD)learning
下载PDF
随机QoS感知的可靠Web服务组合 被引量:69
3
作者 范小芹 蒋昌俊 +1 位作者 王俊丽 庞善臣 《软件学报》 EI CSCD 北大核心 2009年第3期546-556,共11页
在面向服务的环境下,单个Web服务往往不能满足用户的要求,这时就需将已有的单个Web服务进行组合,以便产生满足用户需求的、增值的组合服务.已有的服务组合方法都很少考虑Web服务的随机性和Internet环境的动态性,从而在服务选择过程中产... 在面向服务的环境下,单个Web服务往往不能满足用户的要求,这时就需将已有的单个Web服务进行组合,以便产生满足用户需求的、增值的组合服务.已有的服务组合方法都很少考虑Web服务的随机性和Internet环境的动态性,从而在服务选择过程中产生的规划都是静态规划,结果导致在服务组合时都以较大概率出现组合失败.针对上述问题,提出了Web服务各随机QoS指标的度量方法和自适应QoS管理体系结构,并利用随机型离散事件系统唯一的动态控制方法——马尔可夫决策过程(MDP),设计出随机QoS感知的可靠Web服务组合算法.实验结果表明,考虑随机性的QoS度量方法和QoS管理体系结构,以及平衡了"风险"与"报酬"的MDP有效地提高了服务组合成功率. 展开更多
关键词 web服务组合 马尔可夫决策过程(MDP) Qos随机性 web服务 可靠组合
下载PDF
强化学习方法在Web服务组合中的应用比较研究 被引量:1
4
作者 刘卫红 周义莲 《计算机应用与软件》 CSCD 2011年第7期128-131,共4页
为了提高服务组合适应动态环境的能力,将强化学习技术引入到Web服务组合。目前常用的强化学习方法有三种:蒙特卡罗、时序差分和Q-Learning,为了发现最适合于服务组合的强化学习方法,对这三种方法进行了对比研究。首先将Web服务组合建模... 为了提高服务组合适应动态环境的能力,将强化学习技术引入到Web服务组合。目前常用的强化学习方法有三种:蒙特卡罗、时序差分和Q-Learning,为了发现最适合于服务组合的强化学习方法,对这三种方法进行了对比研究。首先将Web服务组合建模为马尔科夫决策过程,然后介绍了这三种强化学习方法并分析了它们的异同,同时,提出了Web服务组合领域的奖赏值确定方法。最后,通过实验比较了这三种强化学习方法的学习效果,实验结果显示,在Web服务组合应用中,Q-Learning比另外两种方法收敛速度更快,因此更适合执行服务组合。 展开更多
关键词 web服务组合 强化学习 马尔科夫决策过程
下载PDF
Web服务组合的马氏策略规划
5
作者 曾伟 胡垚 《计算机工程与科学》 CSCD 北大核心 2009年第3期153-155,共3页
针对Web服务存在的业务逻辑与服务质量的不确定性,以及时序、时间窗约束,本文提出了利用马尔可夫决策理论来解决Web服务组合中最优策略规划问题的方法。该方法首先将Web服务组合描述为有向无环图表示的任务网络,网络中每个节点代表一个... 针对Web服务存在的业务逻辑与服务质量的不确定性,以及时序、时间窗约束,本文提出了利用马尔可夫决策理论来解决Web服务组合中最优策略规划问题的方法。该方法首先将Web服务组合描述为有向无环图表示的任务网络,网络中每个节点代表一个任务。任务是由相应的Web服务来实现,任务之间的弧线代表任务间时序的约束,任务执行应满足时间窗的约束。在此基础上,建立Web服务组合的马尔可夫决策模型,从而获得Web服务组合的最优策略。 展开更多
关键词 web服务组合 马尔可夫决策过程 时间窗 策略规划
下载PDF
基于SMDP模型的Web服务组合优化方法 被引量:4
6
作者 柴雪霞 马学森 +1 位作者 周雷 唐昊 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第10期1496-1500,共5页
针对Internet环境的动态性和Web服务的不确定性,文章使用有限状态连续时间半马尔可夫决策过程(Semi-Markov Decision Process,简称SMDP)对服务组合进行建模,并给出了服务组合的Q学习优化算法,以获得最优的服务组合策略。通过仿真实验验... 针对Internet环境的动态性和Web服务的不确定性,文章使用有限状态连续时间半马尔可夫决策过程(Semi-Markov Decision Process,简称SMDP)对服务组合进行建模,并给出了服务组合的Q学习优化算法,以获得最优的服务组合策略。通过仿真实验验证了该算法的有效性,仿真结果表明,使用动态的控制方法具有较高的服务组合成功率。 展开更多
关键词 web服务组合 半马尔可夫决策过程 服务质量(QoS) Q学习
下载PDF
不确定感知的自适应云计算服务组合 被引量:7
7
作者 任丽芳 王文剑 许行 《计算机研究与发展》 EI CSCD 北大核心 2016年第12期2867-2881,共15页
云计算服务组合是从众多分布在不同云计算平台上的远程服务中选择合适的组件服务来构建可伸缩的松耦合的增值应用.传统的服务组合方法通常将服务选择与服务组合分阶段进行,由于云计算环境的动态性和服务自身演化的随机性,不能保证选择... 云计算服务组合是从众多分布在不同云计算平台上的远程服务中选择合适的组件服务来构建可伸缩的松耦合的增值应用.传统的服务组合方法通常将服务选择与服务组合分阶段进行,由于云计算环境的动态性和服务自身演化的随机性,不能保证选择阶段性能最优的服务在组合服务执行阶段依然是最优的.考虑到云计算环境服务组合的动态性和随机性,建立基于部分可观测Markov决策过程(partially observable Markov decision process,POMDP)的服务组合模型SC_POMDP(service composition based on POMDP),并设计用于模型求解的Q学习算法.SC_POMDP模型在组合服务运行中动态地进行服务质量(quality of service,QoS)最优的组件服务选择,且认为组合服务运行的环境状态是不确定的,同时SC_POMDP考虑了组件服务间的兼容性,可保证服务组合对实际情境的适应性.仿真实验表明,所提出的方法能成功地解决不同规模的服务组合问题,在出现不同比率的服务失效时,SC_POMDP仍然能动态地选择可用的最优组件服务,保证服务组合能成功地执行.与已有方法相比,SC_POMDP方法所选的服务有更优的响应时间和吞吐量,表明SC_POMDP可有效地提高服务组合的自适应性. 展开更多
关键词 自适应服务组合 云计算环境 不确定感知 部分可观测M a r k o v决策过程 Q 学习算法 服务质量
下载PDF
无线多媒体通信网适应带宽配置在线优化算法 被引量:4
8
作者 江琦 奚宏生 殷保群 《软件学报》 EI CSCD 北大核心 2007年第6期1491-1500,共10页
基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS(quality of service)要求的同时,提高网络资源的利用率.建立事件驱动的随机切换分析模型,将无线多媒体通信网中的适应带宽配置问题转化为... 基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS(quality of service)要求的同时,提高网络资源的利用率.建立事件驱动的随机切换分析模型,将无线多媒体通信网中的适应带宽配置问题转化为带约束的连续时间Markov决策问题.利用此模型的动态结构特性,结合在线学习估计梯度与随机逼近改进策略,提出适应带宽配置在线优化算法.该算法不依赖于系统参数,如呼叫到达率、呼叫持续时间等,自适应性强,计算量小,能够收敛到全局最优,适用于复杂应用环境中无线多媒体通信网适应带宽配置的在线优化.仿真实验结果验证了算法的有效性. 展开更多
关键词 适应带宽配置 markov决策过程 策略优化 强化学习 随机逼近 QoS(quality of service)保证
下载PDF
基于自适应算法的动态网格服务选择方法 被引量:1
9
作者 李清 李志蜀 +3 位作者 朱明放 殷锋 叶军 陈良银 《计算机工程》 CAS CSCD 北大核心 2007年第13期37-39,共3页
针对网格服务的动态性、时序性和随机性,给出了一种基于Q-learning的动态网格服务选择方法,用于求解具有不完全信息的网格环境中的服务组合。对满足马尔可夫决策过程的服务组合提出了一种支持不完备信息描述的网格服务描述模型,实现了... 针对网格服务的动态性、时序性和随机性,给出了一种基于Q-learning的动态网格服务选择方法,用于求解具有不完全信息的网格环境中的服务组合。对满足马尔可夫决策过程的服务组合提出了一种支持不完备信息描述的网格服务描述模型,实现了对服务组合整个生命周期的描述。提出了一种改进的Q-learning算法,动态、自适应地对服务选择中不同选择进行预估,并给出不同情况下的最优选择决策。仿真实验表明了该方法较传统的贪心选择算法具有优越性与实用性。 展开更多
关键词 网格服务组合 Q-learning 马尔可夫决策过程
下载PDF
路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法 被引量:11
10
作者 毛江云 吴昊 孙未未 《计算机学报》 EI CSCD 北大核心 2018年第8期1928-1942,共15页
随着Internet、移动通信、空间定位和LBS技术的发展,越来越多的车辆轨迹被收集,如何从大量的车辆轨迹中高效检测出异常轨迹逐渐引起人们的关注.研究人员提出了许多针对车辆轨迹的异常检测方案,从采用的算法来划分,这些方案被分为三类:... 随着Internet、移动通信、空间定位和LBS技术的发展,越来越多的车辆轨迹被收集,如何从大量的车辆轨迹中高效检测出异常轨迹逐渐引起人们的关注.研究人员提出了许多针对车辆轨迹的异常检测方案,从采用的算法来划分,这些方案被分为三类:基于度量的算法、基于统计的算法和基于监督与半监督学习的算法.三类算法都各自存在不足:第一类的计算量随轨迹数据量的增长而增长,对异常特征的刻画不完整;第二类严重依赖历史数据,因此没有办法解决轨迹稀疏问题;第三类需要大量的人工标注.该文提出了一套路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法,该算法总共分为预处理、离线训练和在线检测三个阶段.预处理阶段采用了隐马尔可夫地图匹配算法作为核心,将原出租车轨迹转化为由路网空间中路段边序列表示的轨迹集合.离线训练阶段采用了马尔可夫决策过程模型对车辆驾驶行为进行建模,深入讨论了模型中路段奖励函数的设计规则,并提出采用无监督的贝叶斯反向增强学习算法配合蒙特卡洛采样算法训练历史车辆轨迹数据学习得到模型参数.在线检测阶段中,实时计算待检测的轨迹的异常度,通过用户指定的异常度阈值判断该轨迹是否为异常车辆轨迹.最后,在真实数据集上进行实验,同时实现了iBOAT算法和MEX算法,并作为对比算法.正确性实验中,该算法在NDCG评测指标中达到了99.3%的正确率;在算法的运行时间上,该算法的单条轨迹在线检测时间能够做到仅耗时0.012ms,较已有算法提升百倍到千倍的效率.在稀疏数据下进行结果正确性实验,在对比算法的效果严重受影响的情况下,该算法依然展现出很强的鲁棒性.在样例分析中可以看到通过该算法计算得到的路段奖励函数数值和对真实驾驶行为的评估高度一致. 展开更多
关键词 异常检测 轨迹计算 马尔可夫决策过程 增强学习 基于位置的服务
下载PDF
面向大规模网络的服务功能链部署方法
11
作者 张冠莹 伊鹏 +2 位作者 李丹 朱棣 毛明 《计算机工程》 CAS CSCD 北大核心 2023年第8期122-129,共8页
网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度... 网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度强化学习(DRL)和传统分布式方法的优点。将SFC部署问题建模为部分可见马尔可夫决策过程,每个节点部署一个Actor-Critic智能体,仅通过观察本地节点信息即可得到全局训练策略,具有DRL的灵活性和自适应性。本地智能体控制交互过程,以解决集中式DRL方法在大规模网络中控制复杂、响应速度慢等问题。基于多线程的思想,收集、整合每个节点的经验进行集中式训练,避免完全分布式训练过程中部分节点因请求流量少而导致训练不充分、策略不适用等问题。实验结果表明,该方法无须考虑网络规模而且不依赖特定场景,可以很好地适应现实中复杂多变的网络环境,在相对复杂的流量环境中,与CDRL、GCASP方法相比,在多种流量模式下所提方法的部署成功率均提高了20%以上,同时能够降低部署成本。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 部分可见马尔可夫决策过程 多智能体
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部