期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning 被引量:3
1
作者 Yun Zou Qing-Zi Xing +4 位作者 Bai-Chuan Wang Shu-Xin Zheng Cheng Cheng Zhong-Ming Wang Xue-Wu Wang 《Nuclear Science and Techniques》 SCIE CAS CSCD 2019年第10期133-141,共9页
This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the pre... This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the predictions of physical designs because of errors in mechanical matching and installation.Therefore,parameter optimization methods such as pointwise scanning,evolutionary algorithms(EAs),and robust conjugate direction search are widely used in beam tuning to compensate for this inconsistency.However,it is difficult for them to deal with a large number of discrete local optima.The A3C algorithm,which has been applied in the automated control field,provides an approach for improving multi-dimensional optimization.The A3C algorithm is introduced and improved for the real-time beam tuning code for accelerators.Experiments in which optimization is achieved by using pointwise scanning,the genetic algorithm(one kind of EAs),and the A3C-algorithm are conducted and compared to optimize the currents of four steering magnets and two solenoids in the low-energy beam transport section(LEBT)of the Xi’an Proton Application Facility.Optimal currents are determined when the highest transmission of a radio frequency quadrupole(RFQ)accelerator downstream of the LEBT is achieved.The optimal work points of the tuned accelerator were obtained with currents of 0 A,0 A,0 A,and 0.1 A,for the four steering magnets,and 107 A and 96 A for the two solenoids.Furthermore,the highest transmission of the RFQ was 91.2%.Meanwhile,the lower time required for the optimization with the A3C algorithm was successfully verified.Optimization with the A3C algorithm consumed 42%and 78%less time than pointwise scanning with random initialization and pre-trained initialization of weights,respectively. 展开更多
关键词 REAL-TIME BEAM tuning Parameter optimization asynchronous advantage actorcritic algorithm Low-energy BEAM transport
下载PDF
基于深度强化学习的立体投送策略优化方法研究 被引量:2
2
作者 安靖 司光亚 张雷 《系统仿真学报》 CAS CSCD 北大核心 2024年第1期39-49,共11页
基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比... 基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比较,构建了基于A3C算法的深度强化学习立体投送策略模型,并通过仿真推演和分布式计算,实现深度强化学习模型与“人不在回路”仿真推演的交互学习,获得优化后的立体投送策略,验证了深度强化学习框架与仿真推演实验协同优化策略的有效性。 展开更多
关键词 深度强化学习 仿真推演 策略优化 立体投送 a3c算法
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
3
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(DQN)算法 异步优势演员-评论家(a3c)算法 深度学习
下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:1
4
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
下载PDF
雾无线接入网中面向时延的协作缓存策略
5
作者 江帆 韩少江 +1 位作者 刘磊 陈艺洋 《西安邮电大学学报》 2023年第2期1-9,共9页
为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模... 为了改善雾无线接入网(Fog-Radio Access Networks,F-RANs)中多个边缘节点之间的协作缓存问题,提出基于异步优势演员评论家(Asynchronous Advantage Actor-Critic,A3C)算法的协作缓存策略。该策略根据用户的历史请求信息学习用户偏好模型,并利用区域用户的偏好模型预测每个雾接入节点(Fog-Access Point,F-AP)服务区域内的局部内容流行度。为了提高边缘节点存储空间的利用率,考虑F-AP以及用户设备(User Equipment,UE)间的协作缓存,以最小化用户获取请求内容的平均下载时延为目标,根据获得的内容流行度分布,优化热门内容的缓存位置。将所提策略与参考策略、贪婪缓存策略和随机缓存策略等3种策略相比,仿真结果表明,所提策略能够实现更低的平均内容下载时延。 展开更多
关键词 雾无线接入网 协作缓存 异步优势演员评论家算法 平均下载时延
下载PDF
矿山信息物理融合系统多节点智联策略 被引量:4
6
作者 马洋锦 付茂全 +1 位作者 许志 李敬兆 《工矿自动化》 北大核心 2020年第3期38-42,48,共6页
针对当前矿山信息物理融合系统(CPS)的通信节点无法与基于不同无线通信协议的感知节点实现智能连接的问题,在通信节点上集成多种通信模块构成多模态通信节点,提出了一种基于渐进式神经网络的矿山CPS多节点智联策略。采用渐进式神经网络... 针对当前矿山信息物理融合系统(CPS)的通信节点无法与基于不同无线通信协议的感知节点实现智能连接的问题,在通信节点上集成多种通信模块构成多模态通信节点,提出了一种基于渐进式神经网络的矿山CPS多节点智联策略。采用渐进式神经网络控制多模态通信节点准确切换工作模态,实现异构无线通信网络自主建立;利用异步优势动作评价算法对渐进式神经网络进行深度训练,提高渐进式神经网络的收敛速度和训练精度。实验结果表明,该策略实现了多模态通信节点与多类感知节点之间的准确、可靠通信。 展开更多
关键词 智慧矿山 矿山信息物理融合系统 多模态通信节点 渐进式神经网络 异步优势动作评价算法
下载PDF
基于长短期记忆-异步优势动作评判的智能车汇入模型
7
作者 吴思凡 杜煜 +2 位作者 徐世杰 杨硕 杜晨 《汽车技术》 CSCD 北大核心 2019年第10期42-47,共6页
针对以往强化学习中智能车汇入车流算法训练时间复杂度高、收敛速度慢的问题,提出基于长短期记忆-异步优势动作评判算法的智能车汇入模型。在异步优势动作评判算法的基础上,结合长短期记忆神经网络,有效地解决训练模型时间和模型收敛的... 针对以往强化学习中智能车汇入车流算法训练时间复杂度高、收敛速度慢的问题,提出基于长短期记忆-异步优势动作评判算法的智能车汇入模型。在异步优势动作评判算法的基础上,结合长短期记忆神经网络,有效地解决训练模型时间和模型收敛的问题。试验结果表明,该算法提高了模型收敛速度与汇入成功率,同时降低了时间复杂度,适合汇入车流场景。 展开更多
关键词 智能车 汇入车流 异步优势动作评判算法 长短期记忆神经网络 时间复杂度 收敛速度
下载PDF
基于自适应多目标强化学习的服务集成方法
8
作者 郭潇 李春山 +1 位作者 张宇跃 初佃辉 《计算机应用》 CSCD 北大核心 2022年第11期3500-3505,共6页
当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性... 当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性。针对上述问题,提出一种基于自适应多目标强化学习的服务集成方法,该方法在异步优势演员评论家(A3C)算法的框架下引入多目标优化策略,从而在满足用户需求的同时保证IoS生态系统的健康发展。所提方法可以根据遗憾值对多目标值集成权重进行动态调整,改善多目标强化学习中子目标值不平衡的现象。在真实大规模服务环境下进行了服务集成验证,实验结果表明所提方法相对于传统机器学习方法在大规模服务环境下求解速度更快;相较于权重固定的强化学习(RL),各目标的求解质量更均衡。 展开更多
关键词 服务集成 强化学习 异步优势演员评论家算法 多目标优化 自适应权重
下载PDF
一种新的基于强化学习改进SAR的无人机路径规划
9
作者 周文娟 张超群 +3 位作者 汤卫东 易云恒 刘文武 秦唯栋 《控制与决策》 EI CSCD 北大核心 2024年第4期1203-1211,共9页
搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是,SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设... 搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是,SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设计SAR的局部搜索和全局搜索操作,并增加路径调整操作,采用异步优势演员评论家算法(A3C)训练强化学习模型使得SAR个体获得自适应选择算子的能力.所有智能体在威胁区数量、位置和大小均随机生成的动态环境中训练,进而从每个动作的贡献、不同威胁区下规划出的路径长度和每个个体的执行操作序列3个方面对训练好的模型进行探索性实验.实验结果表明,RLSAR比标准SAR、差分进化算法、松鼠搜索算法具有更高的收敛速度,能够在随机生成的三维动态环境中成功地为无人机规划出更加经济且安全有效的可行路径,表明所提出算法可作为一种有效的无人机路径规划方法. 展开更多
关键词 强化学习 搜索与救援优化算法 异步优势演员-评论家算法 路径规划 路径调整 无人机
原文传递
考虑能量捕获的新型海洋机器人节能局部路径规划
10
作者 廖煜雷 李可 +2 位作者 赵永波 刘骁锋 张家华 《中国造船》 EI CSCD 北大核心 2023年第6期225-239,共15页
新型海洋机器人能够有效捕获能量,减少能源消耗,提高续航能力。论文基于A3C算法,提出一种考虑能量捕获的海洋机器人节能局部路径规划算法。根据“驭浪者”号的能源系统和运动特性,考虑海流和海风对海洋机器人的影响,建立能耗模型,结合A3... 新型海洋机器人能够有效捕获能量,减少能源消耗,提高续航能力。论文基于A3C算法,提出一种考虑能量捕获的海洋机器人节能局部路径规划算法。根据“驭浪者”号的能源系统和运动特性,考虑海流和海风对海洋机器人的影响,建立能耗模型,结合A3C算法设计趋近目标奖励函数和避障奖励函数,得到距离最优的局部路径规划(DOA3C)算法;考虑新型海洋机器人对风能和太阳能的捕获,建立能量捕获模型。依据能耗模型和能量捕获模型,设计节能奖励函数,采用A3C算法得到能源最优的局部路径规划(EOA3C)算法。通过仿真试验,对比DOA3C和EOA3C算法在相同海洋环境下的能耗情况,验证算法的可行性和有效性。 展开更多
关键词 海洋机器人 局部路径规划 a3c算法 能源最优
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部