-
题名基于视觉注意力机制的异步优势行动者-评论家算法
被引量:1
- 1
-
-
作者
李杰
凌兴宏
伏玉琛
刘全
-
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
-
出处
《计算机科学》
CSCD
北大核心
2019年第5期169-174,共6页
-
基金
国家自然科学基金项目(61772355
61702055
+9 种基金
61303108
61373094
61472262
61502323
61502329)
江苏省高等学校自然科学研究重大项目(17KJA520004)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04
93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
苏州市民生科技项目(SS201736)资助
-
文摘
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。
-
关键词
异步深度强化学习
视觉注意力机制
行动者-评论家
异步优势行动者-评论家
-
Keywords
Asynchronous deep reinforcement learning
Visual attention mechanism
Actor-critic
Asynchronous advantage actor-critic
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于优势执行者-评论家算法的智能操作票生成方法
- 2
-
-
作者
付乐勇
徐启峰
黄奕钒
-
机构
福州大学电气工程与自动化学院
-
出处
《电气开关》
2023年第5期18-23,共6页
-
基金
国家自然科学基金项目(51977038)
国家外国专家局“高端外国专家引进计划”(G2021020009L)。
-
文摘
目前人工或计算机辅助开票,均存在智能辅助手段不足的问题,无法满足电网智能化运行管理的要求。因此提出了一种基于优势行动者-评论家(A2C)算法的智能操作票生成方法,包括建立了以间隔为基本单元的变电站拓扑模型,然后基于SCADA系统的遥测、遥信等信息搭建智能体实时开票环境,以确保开票环境的真实性和实时性,最后设计了A2C算法的环境状态、动作选择与奖惩函数,并进行了实例验证。结果表明,所提方法能够可靠实现指定任务的操作票智能生成的目的,表明了该模型和算法的实用性。
-
关键词
优势行动者-评论家
倒闸操作
操作票
强化学习
变电站
-
Keywords
advantage actor critic(A2C)
switching operation
operation order
reinforcement learning
substation
-
分类号
TM734
[电气工程—电力系统及自动化]
-
-
题名基于A3C的认知物联网通信干扰消除算法
- 3
-
-
作者
刘新梦
谢健骊
李翠然
王亦鸣
-
机构
兰州交通大学电子与信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第10期281-290,共10页
-
基金
国家自然科学基金(62161016)
甘肃省科技计划基金(20JR10RA273)
北京市高速铁路宽带移动通信工程技术研究中心(北京交通大学)开放课题基金资助(BHRC-2022-1)。
-
文摘
针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决策,从而改善通信质量和系统性能。在该算法中,当SU遭受干扰影响通信质量时,智能体通过学习和优化,使SU能够根据当前的位置信息、发射功率、接收功率以及干扰程度选择最低干扰程度的行动,并执行该行动后获得的奖励。智能体通过尝试不同减少干扰的行动,并根据奖励的反馈调整策略,达到最大化定义干扰程度指标和信号质量指标的奖励函数的目的,从而最大程度地减少干扰对通信质量的影响。实验结果表明,与传统k-means算法以及深度递归Q网络(DRQN)和深度Q网络(DQN)优化算法相比,基于A3C的干扰消除算法具有更短的收敛时间、更高的执行效率以及更高的系统吞吐量,较3种基准方法在吞吐量性能上至少提高7%,能够有效地减少干扰对通信质量的不利影响。
-
关键词
认知物联网
干扰消除
异步优势行动者-评论家算法
干扰程度
信号质量
吞吐量
-
Keywords
Cognitive Internet of Things(CIoT)
interference cancellation
Asynchronous Advantage Actor-Critic(A3C)algorithm
interference level
signal quality
throughput
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的A2C算法在交通信号控制中的应用
- 4
-
-
作者
曹桐
黄德启
赵军
-
机构
新疆大学电气工程学院
-
出处
《计算机工程与设计》
北大核心
2024年第6期1713-1719,共7页
-
基金
国家自然科学基金项目(51468062)。
-
文摘
针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptron,MLP)对路口观测到的交通状态特征进行编码;结合图卷积神经网络提取道路之间的空间信息,引入多头注意力机制关注智能体之间的影响,在SUMO仿真环境中进行仿真验证。实验结果表明,改进的A2C算法相较于基线算法在等待时间、平均行驶速度上性能分别提升9.84%、7.57%,可以更好提高车辆通行效率。
-
关键词
强化学习
图卷积神经网络
优势行动者-评论家
多层感知机
多头注意力机制
交通信号控制
多智能体
-
Keywords
reinforcement learning
graph convolutional network
advantage actor-critic
multilayer perceptron
multi-head-attention
traffic signal control
multi-agents system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-