期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于柔性演员-评论家算法的决策规划协同研究
1
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:6
2
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
3
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
4
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:1
5
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
下载PDF
基于多域联合的无人机集群认知抗干扰算法 被引量:11
6
作者 刘春玲 刘敏提 丁元明 《计算机工程》 CAS CSCD 北大核心 2020年第12期193-200,共8页
为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于St... 为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于Stackelberg博弈理论,利用功率域压制中度干扰等级的信道干扰信号,减少切换信道的时间开销。通过引入簇头协助的方法,解决由于单个智能体局部频谱感知能力较弱而导致信道决策成功率较低的问题。仿真结果表明,相比QL-AJ算法与AC-AJ算法,该算法能够给出簇内最佳节点个数,提高接收信号信干噪比,且网络整体抗干扰性能较好。 展开更多
关键词 认知抗干扰算法 优势演员-评论家算法 STACKELBERG博弈 无人机集群 分布式网络
下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
7
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度Q网络(DQN)算法 异步优势演员-评论家(A3C)算法 深度学习
下载PDF
顾及路口压力的A2C交通信号调控
8
作者 张蕾 郭全盛 +1 位作者 林建新 李建武 《计算机仿真》 北大核心 2023年第9期120-124,139,共6页
对城市道路交通进行有效地智能化调控,可以缓解拥堵,缩短出行时间,维护社会稳定,有重要的理论价值和实际意义。为此提出顾及路口压力的多智能体Actor-Critic算法。先设计缓解路口压力的强化学习策略,构建基于深度神经网络的多智能体Acto... 对城市道路交通进行有效地智能化调控,可以缓解拥堵,缩短出行时间,维护社会稳定,有重要的理论价值和实际意义。为此提出顾及路口压力的多智能体Actor-Critic算法。先设计缓解路口压力的强化学习策略,构建基于深度神经网络的多智能体Actor-Critic模型,通过Actor-Critic算法生成行动并做出判别。在SUMO(Simulation of Urban Mobility)平台上模拟交通网络,与三种传统交通信号调控算法进行对比。实验结果表明,所提方法使车辆到达数量提升了12%、车辆平均速度提升了5%,优于其它基准算法。 展开更多
关键词 交通信号控制 强化学习 演员-评论家算法 深度神经网络
下载PDF
一种基于强化学习的商业建筑能量管理方法
9
作者 杨雯婷 郁进明 《物联网技术》 2023年第9期94-97,共4页
在智能建筑的能源管理中,为了最大限度地降低建筑能源成本,在保持建筑内管道水力平衡的同时,需要有效控制供暖、通风和空调(HVAC)系统并尽可能减少能源消耗。该文综合考虑商业建筑中储能、空调、水力单元调度,设计独立可控的HVAC系统,... 在智能建筑的能源管理中,为了最大限度地降低建筑能源成本,在保持建筑内管道水力平衡的同时,需要有效控制供暖、通风和空调(HVAC)系统并尽可能减少能源消耗。该文综合考虑商业建筑中储能、空调、水力单元调度,设计独立可控的HVAC系统,在减少建筑暖通空调的能源成本的同时,保证居住者的热舒适度。本文将水力平衡与热舒适度约束下的系统成本最小化问题建立为非凸优化问题,并进一步转化为马尔可夫决策问题;为了解决系统中的不确定性,提出了基于“演员-评论家”的深度强化学习算法来学习最优调度策略。数值仿真表明,与基线算法相比,该算法能降低9.15%的系统成本。 展开更多
关键词 强化学习 能量管理 智能建筑 HVAC 非凸优化 演员-评论家算法
下载PDF
一种平衡探索和利用的优先经验回放方法 被引量:1
10
作者 张佳能 李辉 +1 位作者 吴昊霖 王壮 《计算机科学》 CSCD 北大核心 2022年第5期179-185,共7页
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采... 经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。 展开更多
关键词 强化学习 经验回放 优先采样 利用 探索 演员-评论家算法
下载PDF
一种新的基于强化学习改进SAR的无人机路径规划
11
作者 周文娟 张超群 +3 位作者 汤卫东 易云恒 刘文武 秦唯栋 《控制与决策》 EI CSCD 北大核心 2024年第4期1203-1211,共9页
搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是,SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设... 搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是,SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设计SAR的局部搜索和全局搜索操作,并增加路径调整操作,采用异步优势演员评论家算法(A3C)训练强化学习模型使得SAR个体获得自适应选择算子的能力.所有智能体在威胁区数量、位置和大小均随机生成的动态环境中训练,进而从每个动作的贡献、不同威胁区下规划出的路径长度和每个个体的执行操作序列3个方面对训练好的模型进行探索性实验.实验结果表明,RLSAR比标准SAR、差分进化算法、松鼠搜索算法具有更高的收敛速度,能够在随机生成的三维动态环境中成功地为无人机规划出更加经济且安全有效的可行路径,表明所提出算法可作为一种有效的无人机路径规划方法. 展开更多
关键词 强化学习 搜索与救援优化算法 异步优势演员-评论家算法 路径规划 路径调整 无人机
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部