期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于双重注意力机制的异步优势行动者评论家算法 被引量:4
1
作者 凌兴宏 李杰 +2 位作者 朱斐 刘全 伏玉琛 《计算机学报》 EI CSCD 北大核心 2020年第1期93-106,共14页
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性. 展开更多
关键词 注意力机制 双重注意力机制 行动者评论家 异步优势行动者评论家 异步深度强化学习
下载PDF
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
2
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论家学习 区块链
下载PDF
基于异步优势动作评价的RFID室内定位算法 被引量:4
3
作者 李丽 郑嘉利 +2 位作者 王哲 袁源 石静 《计算机科学》 CSCD 北大核心 2020年第2期233-238,共6页
针对现有的RFID室内定位算法的精度容易受到环境因素影响的问题,提出了一种基于异步优势动作评价(Asynchronous Advantage Actor-critic,A3C)的RFID室内定位算法。该算法的主要步骤为:1)将RFID的信号强度RSSI值作为输入值,多个线程子动... 针对现有的RFID室内定位算法的精度容易受到环境因素影响的问题,提出了一种基于异步优势动作评价(Asynchronous Advantage Actor-critic,A3C)的RFID室内定位算法。该算法的主要步骤为:1)将RFID的信号强度RSSI值作为输入值,多个线程子动作网络并行交互采样学习,利用子评价网络评价动作值的优劣,使模型不断优化,找到最优信号强度RSSI值,并训练定位模型;子线程网络定期将网络参数异步更新到全局网络上,全局网络最后输出参考标签的具体位置,同时训练得到异步优势动作评价定位模型。2)在线定位阶段,当待测目标进入待测区域时,记录待测目标的信号强度RSSI值,将其输入异步优势动作评价定位模型中,子线程网络从全局网络中获取最新定位信息,对待测目标进行定位,最后输出目标的具体位置。实验数据表明,基于异步优势动作评价的RFID室内定位算法与传统的基于向量机(Support Vector Machines,SVM)定位、基于极限学习机(Extreme Learning Machine,ELM)定位、基于多层神经网络定位(Multi-Layer Perceptron,MLP)的RFID室内定位算法相比,定位平均误差分别下降了66.114%,50.316%,44.494%;定位稳定性分别平均提高了59.733%,53.083%,43.748%。实验结果表明,基于异步优势动作评价的RFID室内定位算法在处理大量室内定位目标时具有较好的定位性能。 展开更多
关键词 RFID RSSI 强化学习 异步优势动作评价 室内定位
下载PDF
基于异步优势执行器评价器的自适应PID控制 被引量:6
4
作者 段友祥 任辉 +1 位作者 孙歧峰 闫亚男 《计算机测量与控制》 2019年第2期70-73,78,共5页
自适应PID较好地解决了传统PID无法自整定参数的问题,已成为控制领域内的研究热点;研究基于异步优势执行器评价器(Asynchronous Advantage Actor-Critic,A3C)算法设计了一种新的自适应PID控制器;该控制器利用A3C结构的多线程异步学习特... 自适应PID较好地解决了传统PID无法自整定参数的问题,已成为控制领域内的研究热点;研究基于异步优势执行器评价器(Asynchronous Advantage Actor-Critic,A3C)算法设计了一种新的自适应PID控制器;该控制器利用A3C结构的多线程异步学习特性,并行训练多个执行器评价器(Actor-Critic,AC)结构的智能体,每个智能体采用多层前馈神经网络逼近策略函数和值函数实现在连续动作空间中搜索最优的参数整定策略,以达到最佳的控制效果;与已有的多种自适应PID控制器性能对比分析结果表明该方法具有收敛速度快,自适应能力强的特点。 展开更多
关键词 深度强化学习 异步优势执行器评价器 自适应PID
下载PDF
基于视觉注意力机制的异步优势行动者-评论家算法 被引量:1
5
作者 李杰 凌兴宏 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2019年第5期169-174,共6页
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。 展开更多
关键词 异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家
下载PDF
基于长短期记忆-异步优势动作评判的智能车汇入模型 被引量:1
6
作者 吴思凡 杜煜 +2 位作者 徐世杰 杨硕 杜晨 《汽车技术》 CSCD 北大核心 2019年第10期42-47,共6页
针对以往强化学习中智能车汇入车流算法训练时间复杂度高、收敛速度慢的问题,提出基于长短期记忆-异步优势动作评判算法的智能车汇入模型。在异步优势动作评判算法的基础上,结合长短期记忆神经网络,有效地解决训练模型时间和模型收敛的... 针对以往强化学习中智能车汇入车流算法训练时间复杂度高、收敛速度慢的问题,提出基于长短期记忆-异步优势动作评判算法的智能车汇入模型。在异步优势动作评判算法的基础上,结合长短期记忆神经网络,有效地解决训练模型时间和模型收敛的问题。试验结果表明,该算法提高了模型收敛速度与汇入成功率,同时降低了时间复杂度,适合汇入车流场景。 展开更多
关键词 智能车 汇入车流 异步优势动作评判算法 长短期记忆神经网络 时间复杂度 收敛速度
下载PDF
异步策略的强化因果发现方法
7
作者 张英 郭辉 《燕山大学学报》 CAS 北大核心 2024年第4期356-368,共13页
研究和发掘事物之间的因果关系是数据科学的核心问题之一。针对因果发现面临着搜索空间超指数量级增长、评价指标低、收敛速度慢且效果差等问题,本文提出一种基于异步策略的强化因果发现方法。首先采用自注意力机制的编码器和单层解码... 研究和发掘事物之间的因果关系是数据科学的核心问题之一。针对因果发现面临着搜索空间超指数量级增长、评价指标低、收敛速度慢且效果差等问题,本文提出一种基于异步策略的强化因果发现方法。首先采用自注意力机制的编码器和单层解码器模型探索数据之间的因果关系;其次,改进强化学习模型中的结构约束,并基于异步优势算法更新网络模型参数;最后,搜索、输出最大奖励的有向无环图。通过实验对比验证了该方法的良好性能。 展开更多
关键词 因果关系 有向无环图 强化因果发现 结构约束 异步优势算法
下载PDF
基于Multi-Agent异步深度强化学习的居民住宅能耗在线优化调度研究 被引量:24
8
作者 张虹 申鑫 +2 位作者 穆昊源 刘艾冬 王鹤 《中国电机工程学报》 EI CSCD 北大核心 2020年第1期117-127,共11页
为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinf... 为促进居民用户柔性负荷高效参与需求响应,帮助用户从被动角色转变为主动角色,实现需求侧最大效益。该文在智能电网环境下,根据用电设备的特性,以概率论的角度对家电设备状态进行描述定义,基于异步深度强化学习(asynchronous deep reinforcement learning,ADRL)进行家庭能源管理系统调度的在线优化。学习过程采用异步优势演员–评判家(asynchronous advantage actor-critic,A3C)方法,联合用户历史用电设备运行状态的概率分布,通过多智能体利用CPU多线程功能同时执行多个动作的决策。该方法在包括光伏发电、电动汽车和居民住宅电器设备信息的某高维数据库上进行仿真验证。最后通过不同住宅情境下的优化决策效果对比分析可知,所提在线能耗调度策略可用于向电力用户提供实时反馈,以实现用户用电经济性目标。 展开更多
关键词 异步优势演员-评判家 需求响应 概率分布 在线优化 多智能体 多动作决策
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
9
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(DQN)算法 异步优势演员-评论家(A3C)算法 深度学习
下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
10
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
下载PDF
考虑综合需求响应的电-气-热综合能源系统低碳经济调度 被引量:3
11
作者 董健 王海鑫 +2 位作者 周夕然 高柳 杨俊友 《华北电力大学学报(自然科学版)》 CAS 北大核心 2023年第3期81-90,共10页
综合能源系统优化调度对提高能源利用效率与低碳运行起到关键作用。然而,由于综合能源系统存在多种能源耦合及源荷侧不确定性,传统调度方法难以准确适应系统源荷动态变化。针对该问题,采用基于深度强化学习的方法,主要通过数据驱动的方... 综合能源系统优化调度对提高能源利用效率与低碳运行起到关键作用。然而,由于综合能源系统存在多种能源耦合及源荷侧不确定性,传统调度方法难以准确适应系统源荷动态变化。针对该问题,采用基于深度强化学习的方法,主要通过数据驱动的方式解决了综合能源能源系统调度中的不确定性问题,同时可以准确适应系统源荷动态变化,实现快速求解。充分挖崛负荷侧灵活性,首先建立考虑综合需求响应的综合能源系统低碳经济调度模型。将含有多重不确定性的综合能源系统经济调度问题描述为马尔科夫决策过程(markov decision process,MDP),采用异步优势演员-评判家(asynchronous advantage actor-critic,A3C)方法进行求解。最后,实例仿真结果表明,相比于DQN和DDPG方法,综合能源系统的日平均运行成本分别降低了8.7%和5.2%。 展开更多
关键词 综合能源系统 综合需求响应 异步优势演员-评判家 低碳优化调度
下载PDF
基于A3C的多功能雷达认知干扰决策方法 被引量:2
12
作者 邹玮琦 牛朝阳 +2 位作者 刘伟 高欧阳 张浩波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第1期86-92,共7页
在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(... 在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(目标方多功能雷达)以及交互机制的认知干扰决策整体框架,制定了干扰决策流程,干扰机模型利用异步多线程方式与环境模型进行交互训练。仿真实验表明,在扩充雷达任务转换关系表的基础上,所提方法与基于深度Q网络(deep Q network,DQN)的认知干扰决策系列方法相比,极大地提高了时间效率,平均决策时间降低70%以上,并且在决策准确度上有着明显优势,表明所提方法能够为多功能雷达对抗决策提供更有力的技术支撑。 展开更多
关键词 干扰决策 异步优势 行动者-评论家 时间效率 决策准确度
下载PDF
A3C深度强化学习模型压缩及知识抽取 被引量:2
13
作者 张晶 王子铭 任永功 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1373-1384,共12页
异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模... 异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模并行网络,难以部署低功耗近端平台.针对上述问题,提出紧凑异步优势演员评论家(Compact_A3C)模型,实现模型压缩及知识抽取.该模型冻结并评价A3C框架中所有子智能体学习效果,将评价结果转化为主智能体更新概率,保证全局最优策略获取,提升大规模网络资源利用率.进一步,模型将优化主智能体作为“教师网络”,监督小规模“学生网络”前期探索与策略引导,并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索,强化自主学习能力,实现大规模A3C模型知识抽取及网络压缩.建立不同压缩比“学生网络”,在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果.模型代码公布在https://github.com/meadewaking/Compact_A3C. 展开更多
关键词 强化学习 深度强化学习 演员评论家模型 异步优势演员评论家模型 模型压缩
下载PDF
面向航班延误场景的机位预分配模型及算法研究
14
作者 王鑫晨 吕增威 +1 位作者 魏振春 张浩 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第8期1079-1085,共7页
针对航班延误场景下易出现机位变更的问题,文章以最小化机位冲突概率和最大化乘客靠桥率为目标,增加基于机位冲突概率的鲁棒性约束,结合机场实际业务规则构建具有良好抗延误特性的机位预分配模型,并将其建模为马尔可夫决策模型,提出基... 针对航班延误场景下易出现机位变更的问题,文章以最小化机位冲突概率和最大化乘客靠桥率为目标,增加基于机位冲突概率的鲁棒性约束,结合机场实际业务规则构建具有良好抗延误特性的机位预分配模型,并将其建模为马尔可夫决策模型,提出基于异步优势动作评价的机位预分配算法(gate assignment algorithm based on asynchronous advantage actor-critic,GABA3C)求解该问题。为验证所提算法在各种变化场景下的适用性,文章设置3组场景实例。仿真结果表明,所提出的算法在有效提升旅客满意度的同时,还可以解决因航班延误造成的机位冲突问题。相比于自适应并行遗传算法(adaptive parallel genetic algorithm,APGA)、近端策略优化(proximal policy optimization,PPO)算法以及深度Q网络(deep Q-network,DQN)算法,该文所提算法求得的解在乘客靠桥率上的目标值分别提高了5.7%、4.6%、5.8%,在机位冲突概率上的目标值分别降低了23.5%、10.0%、17.4%。 展开更多
关键词 航班延误 机位预分配 异步优势动作评价 机位冲突概率 旅客满意度
下载PDF
基于注意力机制的A3C量化交易策略
15
作者 符甲鑫 刘磊 钱成 《南通大学学报(自然科学版)》 CAS 2023年第2期43-49,74,共8页
针对传统交易策略无法有效长期消除市场噪声和非线性影响的问题,提出一种基于注意力机制的异步优势动作评价(squeeze-and-excitation asynchronous advantage actor-critic,SE-A3C)量化交易策略。以历史技术指标因子为环境状态,利用卷... 针对传统交易策略无法有效长期消除市场噪声和非线性影响的问题,提出一种基于注意力机制的异步优势动作评价(squeeze-and-excitation asynchronous advantage actor-critic,SE-A3C)量化交易策略。以历史技术指标因子为环境状态,利用卷积网络和注意力机制模块提取数据特征,判断交易动作,并采用异步训练的方式将多智能体与环境进行交互,有效提升策略的自适应能力。采用该策略对沪深300和上证50股指期货进行交易,结果表明:在测试阶段,沪深300的收益率为12.23%,胜率为58.82%,最大回撤率为2.47%;上证50的收益率为18.82%,胜率为57.56%,最大回撤率为1.05%。 展开更多
关键词 深度强化学习 异步优势动作评价 注意力机制 定量交易
下载PDF
雾无线接入网中面向时延的协作缓存策略
16
作者 江帆 韩少江 +1 位作者 刘磊 陈艺洋 《西安邮电大学学报》 2023年第2期1-9,共9页
为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模... 为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模型,并利用区域用户的偏好模型预测每个雾接入节点(Fog-Access Point,F-AP)服务区域内的局部内容流行度。为了提高边缘节点存储空间的利用率,考虑F-AP以及用户设备(User Equipment,UE)间的协作缓存,以最小化用户获取请求内容的平均下载时延为目标,根据获得的内容流行度分布,优化热门内容的缓存位置。将所提策略与参考策略、贪婪缓存策略和随机缓存策略等3种策略相比,仿真结果表明,所提策略能够实现更低的平均内容下载时延。 展开更多
关键词 雾无线接入网 协作缓存 异步优势演员评论家算法 平均下载时延
下载PDF
基于A3C的特征重构工艺路线规划方法
17
作者 陶鑫钰 王艳 纪志成 《现代制造工程》 CSCD 北大核心 2023年第10期15-26,共12页
针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下... 针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下,基于马尔可夫决策过程定义了状态、动作空间和奖励函数。针对A3C智能体在选取机床、刀具和进刀方向时可能会陷入局部最优,提出了随机贪婪策略,以扩大解的空间、提高解的质量,且为了避免A3C智能体在零件发生特征重构时陷入大量的试错中,提出了快失败策略,以加快智能体规避特征约束的能力,提高响应速度。仿真实验证明,所提方法能有效解决零件发生特征重构的工艺路线规划问题,且相比基于遗传、蚁群和模拟退火算法的工艺路线规划方法,所提方法在零件发生特征重构时响应速度更快,解的质量更高。 展开更多
关键词 异步优势演员-评论家 特征重构 工艺路线 深度强化学习 马尔可夫决策过程
下载PDF
车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法 被引量:22
18
作者 许小龙 方子介 +3 位作者 齐连永 窦万春 何强 段玉聪 《计算机学报》 EI CAS CSCD 北大核心 2021年第12期2382-2405,共24页
边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户... 边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户的服务需求,因此,如何在边缘服务器资源限制的约束下,确定服务卸载地点,为用户提供低时延的服务,仍然是一个巨大的挑战.针对上述问题,本文提出了一种“端-边-云”协同的5G车联网边缘计算系统模型,并针对该系统模型设计了深度学习和深度强化学习协同的分布式服务卸载方法D-SOAC.首先,通过深度时空残差网络,D-SOAC在中心云预测出潜在的用户服务需求量,协同各边缘服务器获取本地车联网边缘计算环境的系统状态,输入边缘服务器上的本地行动者网络,得到该状态下的服务卸载策略.然后,本地评论家网络基于时序差分误差评价该服务卸载策略的优劣,并指导本地行动者网络进行网络参数的优化.优化一定步数后,边缘服务器将优化过的本地网络参数上传到位于中心云的全局网络,协同中心云进行网络参数的更新.最后,中心云将最新的参数推送回本地网络,从而不断对行动者评论家网络进行调优,获得服务卸载的最优解.基于来自现实世界的车载用户服务需求数据集的实验结果表明,在各种车联网边缘计算环境中,相比于四种现有的服务卸载算法,D-SOAC能够降低0.4%~20.4%的用户平均服务时延. 展开更多
关键词 边缘计算 车联网 服务卸载 深度时空残差网络 异步优势行动者评论家
下载PDF
矿山信息物理融合系统多节点智联策略 被引量:4
19
作者 马洋锦 付茂全 +1 位作者 许志 李敬兆 《工矿自动化》 北大核心 2020年第3期38-42,48,共6页
针对当前矿山信息物理融合系统(CPS)的通信节点无法与基于不同无线通信协议的感知节点实现智能连接的问题,在通信节点上集成多种通信模块构成多模态通信节点,提出了一种基于渐进式神经网络的矿山CPS多节点智联策略。采用渐进式神经网络... 针对当前矿山信息物理融合系统(CPS)的通信节点无法与基于不同无线通信协议的感知节点实现智能连接的问题,在通信节点上集成多种通信模块构成多模态通信节点,提出了一种基于渐进式神经网络的矿山CPS多节点智联策略。采用渐进式神经网络控制多模态通信节点准确切换工作模态,实现异构无线通信网络自主建立;利用异步优势动作评价算法对渐进式神经网络进行深度训练,提高渐进式神经网络的收敛速度和训练精度。实验结果表明,该策略实现了多模态通信节点与多类感知节点之间的准确、可靠通信。 展开更多
关键词 智慧矿山 矿山信息物理融合系统 多模态通信节点 渐进式神经网络 异步优势动作评价算法
下载PDF
三层移动网络体系中基于DRL的卸载策略研究 被引量:2
20
作者 葛海波 赵其实 +1 位作者 车虹葵 李照宇 《传感器与微系统》 CSCD 北大核心 2022年第8期60-63,67,共5页
在用户设备、边缘计算服务器和云服务器构成的三层移动网络体系中,如何高效地进行任务卸载是一个重要的问题。针对移动边缘计算(MEC)中多用户多服务器环境下的长时延和高能耗问题,提出一种基于深度强化学习(DRL)算法的三层移动网络架构... 在用户设备、边缘计算服务器和云服务器构成的三层移动网络体系中,如何高效地进行任务卸载是一个重要的问题。针对移动边缘计算(MEC)中多用户多服务器环境下的长时延和高能耗问题,提出一种基于深度强化学习(DRL)算法的三层移动网络架构,将卸载决策问题模型化为约束条件下的最优化问题。结合深度强化学习理论,利用改进的A3C(IA3C)算法求解。仿真结果表明:与深度Q网络(DQN)、全本地卸载算法、全边缘卸载算法相比,在设备数量、MEC计算能力和用户数据量三个方面,提出的卸载策略均能更有效地降低总成本。 展开更多
关键词 移动边缘计算 三层移动网络体系 任务卸载 异步优势动作评价 深度强化学习
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部