期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于随机博弈与A3C深度强化学习的网络防御策略优选
1
作者 胡浩 赵昌军 +3 位作者 刘璟 宋昱欣 姜迎畅 张玉臣 《指挥与控制学报》 CSCD 北大核心 2024年第1期47-58,共12页
网络资源的有限性和攻防对抗的动态性导致最优防御策略难以选取,将深度强化学习引入攻防随机博弈建模领域,通过构建网络攻防actor策略网络和critic价值网络,结合随机博弈模型构建了网络攻防博弈决策模型总体结构,在此基础上引入异步优... 网络资源的有限性和攻防对抗的动态性导致最优防御策略难以选取,将深度强化学习引入攻防随机博弈建模领域,通过构建网络攻防actor策略网络和critic价值网络,结合随机博弈模型构建了网络攻防博弈决策模型总体结构,在此基础上引入异步优势演员评论家算法(asynchronous advantage actor-critic,A3C)智能体学习框架设计了防御策略选取算法;针对现有方法未考虑攻击方群体间的共谋攻击,引入群智能体性格特征,建立合作系数μ来刻画攻击者之间的合作对攻防策略收益的影响,进而得出对防御策略选取的影响,构建的博弈决策模型更符合攻防实际情况。实验结果表明,该方法的策略求解速度要优于现有方法,同时由于考虑了攻击合作关系,能够用于分析攻击者群体间合作关系对防御者决策的影响,防御策略选取更有针对性,期望防御收益更高。 展开更多
关键词 网络攻防 最优防御决策 随机博弈 多智能体 a3c算法
下载PDF
基于深度强化学习的立体投送策略优化方法研究 被引量:1
2
作者 安靖 司光亚 张雷 《系统仿真学报》 CAS CSCD 北大核心 2024年第1期39-49,共11页
基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比... 基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比较,构建了基于A3C算法的深度强化学习立体投送策略模型,并通过仿真推演和分布式计算,实现深度强化学习模型与“人不在回路”仿真推演的交互学习,获得优化后的立体投送策略,验证了深度强化学习框架与仿真推演实验协同优化策略的有效性。 展开更多
关键词 深度强化学习 仿真推演 策略优化 立体投送 a3c算法
下载PDF
强化学习A3C算法在电梯调度中的建模及应用 被引量:4
3
作者 刘宇 张聪 李涛 《计算机工程与设计》 北大核心 2022年第1期196-202,共7页
为让电梯调度算法在电梯电力能耗、用户乘梯体验和算法适应性方面具备更好表现,在目前主流的电梯调度算法基础之上,提出对调度环境、电梯行为和调度目标3个方面进行统一建模的基于强化学习A3C的电梯智能调度算法。让调度电梯在不断地和... 为让电梯调度算法在电梯电力能耗、用户乘梯体验和算法适应性方面具备更好表现,在目前主流的电梯调度算法基础之上,提出对调度环境、电梯行为和调度目标3个方面进行统一建模的基于强化学习A3C的电梯智能调度算法。让调度电梯在不断地和环境交互学习过程中逐渐学习得到最优电梯调度策略,与基于具体环境建模的相关电梯调度算法进行对比实验,基于A3C的调度算法具有建模简单规范、适应性强和控制目标多样的优势,对比A3C算法与部分强化学习算法在电梯调度中的优劣,实验结果表明,A3C算法具备较好的调度性能。 展开更多
关键词 智能调度 电梯调度算法 电梯节能 强化学习 a3c
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
4
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(DQN)算法 异步优势演员-评论家(a3c)算法 深度学习
下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:1
5
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
下载PDF
强化学习A3C算法应用于电梯调度中的价值分析
6
作者 黄刚 郭贝 《今日自动化》 2022年第4期86-88,共3页
电梯使用量的增加,让电梯的用户体验、电力能耗及算法适应性的要求更高。在电梯常规调度算法上,提出了基于调度环境、调度目标、电梯行为的强化学习A3C智能调度算法。让电梯在不断地与环境交互学习中获得最优电梯调度策略,使其更具适应... 电梯使用量的增加,让电梯的用户体验、电力能耗及算法适应性的要求更高。在电梯常规调度算法上,提出了基于调度环境、调度目标、电梯行为的强化学习A3C智能调度算法。让电梯在不断地与环境交互学习中获得最优电梯调度策略,使其更具适应性和实现目标多样性。本文就对电梯调度、强化学习进行了概述,分析了强化学习A3C算法在电梯调度中的建模价值,以进一步优化算法。 展开更多
关键词 强化a3c算法 电梯调度 价值分析
下载PDF
Reliable Scheduling Method for Sensitive Power Business Based on Deep Reinforcement Learning
7
作者 Shen Guo Jiaying Lin +2 位作者 Shuaitao Bai Jichuan Zhang Peng Wang 《Intelligent Automation & Soft Computing》 SCIE 2023年第7期1053-1066,共14页
The main function of the power communication business is to monitor,control and manage the power communication network to ensure normal and stable operation of the power communication network.Commu-nication services r... The main function of the power communication business is to monitor,control and manage the power communication network to ensure normal and stable operation of the power communication network.Commu-nication services related to dispatching data networks and the transmission of fault information or feeder automation have high requirements for delay.If processing time is prolonged,a power business cascade reaction may be triggered.In order to solve the above problems,this paper establishes an edge object-linked agent business deployment model for power communication network to unify the management of data collection,resource allocation and task scheduling within the system,realizes the virtualization of object-linked agent computing resources through Docker container technology,designs the target model of network latency and energy consumption,and introduces A3C algorithm in deep reinforcement learning,improves it according to scene characteristics,and sets corresponding optimization strategies.Mini-mize network delay and energy consumption;At the same time,to ensure that sensitive power business is handled in time,this paper designs the business dispatch model and task migration model,and solves the problem of server failure.Finally,the corresponding simulation program is designed to verify the feasibility and validity of this method,and to compare it with other existing mechanisms. 展开更多
关键词 Power communication network dispatching data networks resource allocation a3c algorithm deep reinforcement learning
下载PDF
融合仿真模型与深度强化学习的离心压缩机控制优化方法
8
作者 魏晓晗 李健森 +4 位作者 田盛 宋锋 刘国强 刘迪昕 张庆 《风机技术》 2023年第6期86-91,共6页
作为一种复杂的工业系统,离心压缩机具有强耦合、强非线性、大滞后的特点。由于控制参数较多,且参数之间相互影响、关系复杂,加之其控制优化需要综合考虑输出性能、整机效率、可靠性等因素,离心压缩机调控的难度非常大。本文提出了一种... 作为一种复杂的工业系统,离心压缩机具有强耦合、强非线性、大滞后的特点。由于控制参数较多,且参数之间相互影响、关系复杂,加之其控制优化需要综合考虑输出性能、整机效率、可靠性等因素,离心压缩机调控的难度非常大。本文提出了一种融合仿真模型与深度强化学习的离心压缩机控制优化方法,对避免流体机械工作点漂移、提高系统可靠性、降低能耗具有一定的意义。首先,分析离心压缩机典型结构,建立离心压缩机Greitzer仿真模型。然后,根据流体机械性能优化需求,设计优化评价指标,提出基于异步优势演员-评论家(A3C)深度强化学习的智能控制优化方法。最后,通过气动试验台实验验证了方法在压缩机系统中的应用效果。 展开更多
关键词 离心压缩机 a3c算法 仿真模型 控制优化
下载PDF
基于自适应多目标强化学习的服务集成方法
9
作者 郭潇 李春山 +1 位作者 张宇跃 初佃辉 《计算机应用》 CSCD 北大核心 2022年第11期3500-3505,共6页
当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性... 当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性。针对上述问题,提出一种基于自适应多目标强化学习的服务集成方法,该方法在异步优势演员评论家(A3C)算法的框架下引入多目标优化策略,从而在满足用户需求的同时保证IoS生态系统的健康发展。所提方法可以根据遗憾值对多目标值集成权重进行动态调整,改善多目标强化学习中子目标值不平衡的现象。在真实大规模服务环境下进行了服务集成验证,实验结果表明所提方法相对于传统机器学习方法在大规模服务环境下求解速度更快;相较于权重固定的强化学习(RL),各目标的求解质量更均衡。 展开更多
关键词 服务集成 强化学习 异步优势演员评论家算法 多目标优化 自适应权重
下载PDF
基于互信息的智能博弈对抗分层强化学习研究
10
作者 魏竞毅 赖俊 陈希亮 《计算机技术与发展》 2022年第9期142-147,共6页
智能博弈在当前人工智能的发展中是较为热点的一个问题,同时随着人工智能的不断发展,在作战指挥领域也逐渐得到了广泛的应用,尤其以美国DAPPA为首,利用人工智能来为指挥员的战场决策提供全方位的策略支持,如何利用人工智能模拟战场环境... 智能博弈在当前人工智能的发展中是较为热点的一个问题,同时随着人工智能的不断发展,在作战指挥领域也逐渐得到了广泛的应用,尤其以美国DAPPA为首,利用人工智能来为指挥员的战场决策提供全方位的策略支持,如何利用人工智能模拟战场环境下进行战场对抗也是研究的一方面。当前智能体虽然能够通过获得奖励不断进行优化,在策略上通常是根据即时奖励选择当时收益最大的策略,现实战场环境中有些决策当时虽不会有即时收益,但之后是会对整体的战场形势有更好的推动作用,能够取得更有利的战果。针对此问题,利用分层强化学习进行智能体的智能博弈训练,并应用于简单战场环境下来模拟虚拟指挥员,提出了一种基于互信息的智能博弈对抗的分层强化学习算法MI-A3C。MI-A3C算法在模拟的战场环境中能够取得86.7%的胜率,并能够完成主要任务,同时在实验中可以发现一些有利于长远收益的决策。 展开更多
关键词 智能博弈 强化学习 互信息 分层 a3c算法 分队指挥
下载PDF
变分模态分解新能源电力系统低频振荡控制方法
11
作者 王馨悦 马星河 《粘接》 CAS 2024年第6期42-45,共4页
为了提高对高比例新能源电力系统低频振荡能量的计算精度,进而提升低频振荡控制效果,变分模态分解的基础上,研究高比例新能源电力系统低频振荡控制方法。将变分模态分解算法应用于提取电力系统低频振荡信号;使用A3C算法,训练低频振荡能... 为了提高对高比例新能源电力系统低频振荡能量的计算精度,进而提升低频振荡控制效果,变分模态分解的基础上,研究高比例新能源电力系统低频振荡控制方法。将变分模态分解算法应用于提取电力系统低频振荡信号;使用A3C算法,训练低频振荡能量;通过返回机制和梯度计算获取低频振荡的能量参数,利用这些参数建立二维模糊控制的模糊规则,然后对输出量进行去模糊化处理,从而实现对低频振荡的有效控制。实验结果表明,使用所设计方法对高比例新能源电力系统低频振荡进行控制后,其低频振荡位于0.5 Hz左右,控制效果较好。 展开更多
关键词 变分模态分解 高比例新能源 电力系统 低频振荡控制 a3c算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部