期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法 被引量:2
1
作者 张严心 孔涵 +2 位作者 殷辰堃 王子豪 黄志清 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期459-466,共8页
针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience rep... 针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景,将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, PER-MASAC)2种基线算法进行对比实验.结果表明,采用DPER-MASAC训练的捕食者团队其决策水平在最终性能和任务成功率2个维度上均有明显提升. 展开更多
关键词 多智能体系统(MAS) 多智能体深度强化学习(DRL) 优先经验回放机制 分布式结构 抽样概率 行动-评论算法
下载PDF
带最大熵修正的行动者评论家算法 被引量:5
2
作者 姜玉斌 刘全 胡智慧 《计算机学报》 EI CSCD 北大核心 2020年第10期1897-1908,共12页
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大... 在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性. 展开更多
关键词 强化学习 深度学习 行动者评论家算法 最大熵 策略梯度
下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
3
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
下载PDF
基于随机加权三重Q学习的异策略最大熵强化学习算法 被引量:2
4
作者 范静宇 刘全 《计算机科学》 CSCD 北大核心 2022年第6期335-341,共7页
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家... 强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。 展开更多
关键词 Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法
下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
5
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守Q学习算法 行动评论算法 专家经验 防撞策略
下载PDF
一种针对坦克速度控制的深度强化学习算法 被引量:1
6
作者 崔新悦 阳周明 +2 位作者 赵彦东 杨霄 范玲瑜 《火力与指挥控制》 CSCD 北大核心 2022年第4期120-125,共6页
坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft actor-critic,SAC)进行改进,在训练阶段... 坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft actor-critic,SAC)进行改进,在训练阶段,赋予最近经验更大权重值,增大其采样概率,从而提高了训练的稳定性和收敛速度。在此基础上,基于应用环境以及作战任务设计奖励函数,提高算法的战场适用性。构建具体作战场景,对改进的算法与传统算法进行对比,结果表明,提出的算法在坦克速度控制上表现出更好的性能。 展开更多
关键词 深度强化学习 行动者 - 评论家算法 坦克速度控制 采样策略
下载PDF
基于多层注意力机制—柔性AC算法的机器人路径规划 被引量:5
7
作者 韩金亮 任海菁 +2 位作者 吴淞玮 蒋欣欣 刘凤凯 《计算机应用研究》 CSCD 北大核心 2020年第12期3650-3655,共6页
针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔... 针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔性AC算法。将其用于解决动态未知环境下的机器人路径规划问题,可增强行动者的策略梯度鲁棒性并降低评论家的回归误差,实现机器人路径规划最优方案的快速收敛。实验结果表明,该算法有效克服机器人路径规划的局部最优,具有计算速度快、稳定收敛的优点。 展开更多
关键词 行动者—评论家算法 注意力机制 深度强化学习 机器人路径规划
下载PDF
基于双行动者深度确定性策略梯度算法的间歇过程控制
8
作者 马军伟 徐琛 +1 位作者 陶洪峰 杨慧中 《信息与控制》 CSCD 北大核心 2023年第6期773-783,810,共12页
针对传统基于模型的控制方法在处理间歇过程任务时会因为其复杂的非线性动态导致模型不准确,进而影响控制性能的问题,结合强化学习(RL),提出一种不需要过程模型的间歇过程控制方案。首先,该方法通过双行动者并行训练的结构来解决深度强... 针对传统基于模型的控制方法在处理间歇过程任务时会因为其复杂的非线性动态导致模型不准确,进而影响控制性能的问题,结合强化学习(RL),提出一种不需要过程模型的间歇过程控制方案。首先,该方法通过双行动者并行训练的结构来解决深度强化学习算法中值函数高估计的问题,提高算法的学习效率。其次,为每个行动者设置独立的经验池来保持双行动者的独立性。此外,为RL控制器设置了一种新型奖励函数,引导过程回到预定轨迹,并通过引入延迟策略更新方法来缓解参数更新时的时序差分(TD)误差累积问题。最后利用青霉素发酵过程的仿真,展示了基于双行动者深度确定性策略梯度(TA-DDPG)算法的控制器对间歇过程控制的有效性。 展开更多
关键词 间歇过程 模型未知 强化学习 行动者-评论家框架 策略梯度算法
原文传递
基于动作约束深度强化学习的安全自动驾驶方法 被引量:13
9
作者 代珊珊 刘全 《计算机科学》 CSCD 北大核心 2021年第9期235-243,共9页
随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探... 随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习失败。针对该问题,提出了一种基于动作约束的软行动者-评论家算法(Constrained Soft Actor-critic,CSAC),该方法首先对环境奖赏进行了合理限制。无人车动作转角过大时会产生抖动,因此在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态。另外,CSAC方法又对智能体的动作进行了约束。当目前状态选择动作后使无人车偏离轨道或者发生碰撞时,标记该动作为约束动作,在之后的训练中通过合理约束来更好地指导无人车选择新动作。为了体现CSAC方法的优势,将CSAC方法应用在自动驾驶车道保持任务中,并与SAC算法进行对比。结果表明,引入安全机制的CSAC方法可以有效避开不安全动作,提高自动驾驶过程中的稳定性,同时还加快了模型的训练速度。最后,将训练好的模型移植到带有树莓派的无人车上,进一步验证了模型的泛用性。 展开更多
关键词 安全自动驾驶 深度强化学习 行动者-评论家 车道保持 无人车
下载PDF
一种平衡探索和利用的优先经验回放方法 被引量:1
10
作者 张佳能 李辉 +1 位作者 吴昊霖 王壮 《计算机科学》 CSCD 北大核心 2022年第5期179-185,共7页
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采... 经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。 展开更多
关键词 强化学习 经验回放 优先采样 利用 探索 演员-评论家算法
下载PDF
基于深度强化学习的二维不规则多边形排样方法
11
作者 曾焕荣 商慧亮 《计算机系统应用》 2022年第2期168-175,共8页
本文将深度强化学习应用于二维不规则多边形的排样问题中,使用质心到轮廓距离将多边形的形状特征映射到一维向量当中,对于在随机产生的多边形中实现了1%以内的压缩损失.给定多边形零件序列,本文使用多任务的深度强化学习模型对不规则排... 本文将深度强化学习应用于二维不规则多边形的排样问题中,使用质心到轮廓距离将多边形的形状特征映射到一维向量当中,对于在随机产生的多边形中实现了1%以内的压缩损失.给定多边形零件序列,本文使用多任务的深度强化学习模型对不规则排样件的顺序以及旋转角度进行预测,得到优于标准启发式算法5%–10%的排样效果,并在足够次数的采样后得到优于优化后的遗传算法的结果,能够在最短时间内得到一个较优的初始解,具有一定的泛化能力. 展开更多
关键词 排样优化问题 组合优化问题 深度强化学习 编码器-解码器结构 行动家-评论家算法
下载PDF
基于InfoLSGAN和AC算法的滚动轴承剩余寿命预测 被引量:5
12
作者 于广滨 卓识 +1 位作者 于军 刘可 《航空动力学报》 EI CAS CSCD 北大核心 2020年第6期1212-1221,共10页
为解决小样本和噪声干扰下滚动轴承剩余寿命(RUL)预测准确率低的问题,提出一种基于信息最小二乘生成对抗网络(information least squares generative adversarial network,InfoLSGAN)和行动者-评论家(actor-critic,AC)算法的滚动轴承剩... 为解决小样本和噪声干扰下滚动轴承剩余寿命(RUL)预测准确率低的问题,提出一种基于信息最小二乘生成对抗网络(information least squares generative adversarial network,InfoLSGAN)和行动者-评论家(actor-critic,AC)算法的滚动轴承剩余寿命预测方法。将堆叠降噪自动编码器、信息生成对抗网络和最小二乘生成对抗网络相结合,构建InfoLSGAN,自动地从噪声数据中提取可解释的鲁棒特征,解决梯度消失问题;采用基于AC的训练算法训练InfoLSGAN,减少训练时间,加快收敛速度;根据训练后的InfoLSGAN,利用softmax分类器预测测试样本中滚动轴承的剩余寿命。通过滚动轴承加速疲劳寿命试验验证该方法的有效性。试验结果证明,当信噪比等于0时,该方法对滚动轴承测试样本的寿命预测准确率至少提高了10%。在小样本情况下,滚动轴承剩余寿命预测的平均准确率达95.84%。 展开更多
关键词 滚动轴承 剩余寿命预测 信息最小二乘 生成对抗网络 行动者-评论家算法 堆叠降噪自动编码器
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部