期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于视觉注意力机制的异步优势行动者-评论家算法 被引量:1
1
作者 李杰 凌兴宏 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2019年第5期169-174,共6页
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。 展开更多
关键词 异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家
下载PDF
基于优势执行者-评论家算法的智能操作票生成方法
2
作者 付乐勇 徐启峰 黄奕钒 《电气开关》 2023年第5期18-23,共6页
目前人工或计算机辅助开票,均存在智能辅助手段不足的问题,无法满足电网智能化运行管理的要求。因此提出了一种基于优势行动者-评论家(A2C)算法的智能操作票生成方法,包括建立了以间隔为基本单元的变电站拓扑模型,然后基于SCADA系统的... 目前人工或计算机辅助开票,均存在智能辅助手段不足的问题,无法满足电网智能化运行管理的要求。因此提出了一种基于优势行动者-评论家(A2C)算法的智能操作票生成方法,包括建立了以间隔为基本单元的变电站拓扑模型,然后基于SCADA系统的遥测、遥信等信息搭建智能体实时开票环境,以确保开票环境的真实性和实时性,最后设计了A2C算法的环境状态、动作选择与奖惩函数,并进行了实例验证。结果表明,所提方法能够可靠实现指定任务的操作票智能生成的目的,表明了该模型和算法的实用性。 展开更多
关键词 优势行动者-评论家 倒闸操作 操作票 强化学习 变电站
下载PDF
基于A3C的认知物联网通信干扰消除算法
3
作者 刘新梦 谢健骊 +1 位作者 李翠然 王亦鸣 《计算机工程》 CAS CSCD 北大核心 2024年第10期281-290,共10页
针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决... 针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决策,从而改善通信质量和系统性能。在该算法中,当SU遭受干扰影响通信质量时,智能体通过学习和优化,使SU能够根据当前的位置信息、发射功率、接收功率以及干扰程度选择最低干扰程度的行动,并执行该行动后获得的奖励。智能体通过尝试不同减少干扰的行动,并根据奖励的反馈调整策略,达到最大化定义干扰程度指标和信号质量指标的奖励函数的目的,从而最大程度地减少干扰对通信质量的影响。实验结果表明,与传统k-means算法以及深度递归Q网络(DRQN)和深度Q网络(DQN)优化算法相比,基于A3C的干扰消除算法具有更短的收敛时间、更高的执行效率以及更高的系统吞吐量,较3种基准方法在吞吐量性能上至少提高7%,能够有效地减少干扰对通信质量的不利影响。 展开更多
关键词 认知物联网 干扰消除 异步优势行动者-评论家算法 干扰程度 信号质量 吞吐量
下载PDF
改进的A2C算法在交通信号控制中的应用
4
作者 曹桐 黄德启 赵军 《计算机工程与设计》 北大核心 2024年第6期1713-1719,共7页
针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptro... 针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptron,MLP)对路口观测到的交通状态特征进行编码;结合图卷积神经网络提取道路之间的空间信息,引入多头注意力机制关注智能体之间的影响,在SUMO仿真环境中进行仿真验证。实验结果表明,改进的A2C算法相较于基线算法在等待时间、平均行驶速度上性能分别提升9.84%、7.57%,可以更好提高车辆通行效率。 展开更多
关键词 强化学习 图卷积神经网络 优势行动者-评论家 多层感知机 多头注意力机制 交通信号控制 多智能体
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部