期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于最近双经验SAC算法的无人分队控制研究
1
作者 李海川 阳周明 +2 位作者 王洋 崔新悦 王娜 《火力与指挥控制》 CSCD 北大核心 2023年第6期70-75,83,共7页
针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明... 针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的SAC算法相比传统SAC算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成功率。 展开更多
关键词 深度强化学习 SAC算法 最近双经验池回放 无人分队行为决策
下载PDF
基于深度强化学习的无人艇航行控制 被引量:3
2
作者 张法帅 李宝安 阮子涛 《计测技术》 2018年第A01期207-211,共5页
无人水面艇(Unmanned Surface Vehicle,USV)是一种自主式海洋无人航行运载器,在无人控制领域中被广泛研究,但复杂环境下传统的控制方法建模困难且不具有很好泛化性。本文以深度强化学习算法为基础,建立无人艇在复杂海况下的环境,分析并... 无人水面艇(Unmanned Surface Vehicle,USV)是一种自主式海洋无人航行运载器,在无人控制领域中被广泛研究,但复杂环境下传统的控制方法建模困难且不具有很好泛化性。本文以深度强化学习算法为基础,建立无人艇在复杂海况下的环境,分析并设计环境的状态空间、动作空间和奖励等,通过经验池回放技术提供训练样本,训练网络以实现对航线的跟踪。通过实验仿真验证,训练后的网络能够很好地对无人艇进行控制,并具有对不同航线和无人艇模型具有良好的泛化性。 展开更多
关键词 深度强化学习 无人艇 航迹控制 经验池回放
下载PDF
基于深度强化学习的湿法脱硫系统运行优化 被引量:1
3
作者 吴磊 康英伟 《系统科学与数学》 CSCD 北大核心 2022年第5期1067-1087,共21页
针对传统石灰石/石膏湿法烟气脱硫(WFGD)系统运行优化方式适应性不强,效率低,资源消耗大等问题,提出了一种基于数据驱动建模和深度强化学习的脱硫系统运行优化方法.首先为解决传统PCA只能衡量特征变量间线性关系的局限性,将互信息(MI)引... 针对传统石灰石/石膏湿法烟气脱硫(WFGD)系统运行优化方式适应性不强,效率低,资源消耗大等问题,提出了一种基于数据驱动建模和深度强化学习的脱硫系统运行优化方法.首先为解决传统PCA只能衡量特征变量间线性关系的局限性,将互信息(MI)引入PCA中优化主成分分析结果和长短期记忆网络(LSTM)的输入变量;然后利用改进粒子群(IPSO)确定LSTM的最优参数组合,降低LSTM训练成本;最后基于MIPCA-IPSO-LSTM模型构建脱硫系统与强化学习的快速交互环境.考虑到传统深度确定性策略梯度(DDPG)算法存在收敛速度比较慢,训练不稳定耗时长,样本利用效率低的问题,文章提出采用基于累计回报的双经验池回放机制的深度确定性策略梯度(DER-DDPG)算法搭建优化仿真平台.文章以某电厂600MW机组脱硫系统为例,基于Python语言和TensorFlow框架下的仿真结果表明,与传统PCA相比,MIPCA能够保留更多原始数据信息并剔除冗余信息;IPSO可以提高PSO的全局寻优能力和收敛速度,与其他传统模型相比,当LSTM具有2层隐含层时具有更高的预测性能;DER-DDPG算法得出的优化策略在满足脱硫系统实际工艺参数需要的前提下,有效地降低了脱硫的运行成本,相比DQN算法和DDPG算法更具实际应用价值,能满足脱硫系统运行优化的需要. 展开更多
关键词 经验池回放机制 DDPG算法 互信息 主成分分析 粒子群 LSTM网络 运行优化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部