-
题名基于最近双经验SAC算法的无人分队控制研究
- 1
-
-
作者
李海川
阳周明
王洋
崔新悦
王娜
-
机构
北方自动控制技术研究所
-
出处
《火力与指挥控制》
CSCD
北大核心
2023年第6期70-75,83,共7页
-
文摘
针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的SAC算法相比传统SAC算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成功率。
-
关键词
深度强化学习
SAC算法
最近双经验池回放
无人分队行为决策
-
Keywords
deep reinforcement learning
soft actor-critic algorithm(SAC algorithm)
dual experience replay playback
unmanned squad behavior decision-making
-
分类号
TJ812
[兵器科学与技术—武器系统与运用工程]
-
-
题名基于深度强化学习的无人艇航行控制
被引量:3
- 2
-
-
作者
张法帅
李宝安
阮子涛
-
机构
北京航空航天大学
北京航空航天大学台州研究院
-
出处
《计测技术》
2018年第A01期207-211,共5页
-
文摘
无人水面艇(Unmanned Surface Vehicle,USV)是一种自主式海洋无人航行运载器,在无人控制领域中被广泛研究,但复杂环境下传统的控制方法建模困难且不具有很好泛化性。本文以深度强化学习算法为基础,建立无人艇在复杂海况下的环境,分析并设计环境的状态空间、动作空间和奖励等,通过经验池回放技术提供训练样本,训练网络以实现对航线的跟踪。通过实验仿真验证,训练后的网络能够很好地对无人艇进行控制,并具有对不同航线和无人艇模型具有良好的泛化性。
-
关键词
深度强化学习
无人艇
航迹控制
经验池回放
-
分类号
TB9
[机械工程—测试计量技术及仪器]
-
-
题名基于深度强化学习的湿法脱硫系统运行优化
被引量:1
- 3
-
-
作者
吴磊
康英伟
-
机构
上海电力大学自动化工程学院
-
出处
《系统科学与数学》
CSCD
北大核心
2022年第5期1067-1087,共21页
-
基金
国家自然科学基金项目(61573239)
上海发电过程智能管控工程技术研究中心(14DZ2251100)资助课题。
-
文摘
针对传统石灰石/石膏湿法烟气脱硫(WFGD)系统运行优化方式适应性不强,效率低,资源消耗大等问题,提出了一种基于数据驱动建模和深度强化学习的脱硫系统运行优化方法.首先为解决传统PCA只能衡量特征变量间线性关系的局限性,将互信息(MI)引入PCA中优化主成分分析结果和长短期记忆网络(LSTM)的输入变量;然后利用改进粒子群(IPSO)确定LSTM的最优参数组合,降低LSTM训练成本;最后基于MIPCA-IPSO-LSTM模型构建脱硫系统与强化学习的快速交互环境.考虑到传统深度确定性策略梯度(DDPG)算法存在收敛速度比较慢,训练不稳定耗时长,样本利用效率低的问题,文章提出采用基于累计回报的双经验池回放机制的深度确定性策略梯度(DER-DDPG)算法搭建优化仿真平台.文章以某电厂600MW机组脱硫系统为例,基于Python语言和TensorFlow框架下的仿真结果表明,与传统PCA相比,MIPCA能够保留更多原始数据信息并剔除冗余信息;IPSO可以提高PSO的全局寻优能力和收敛速度,与其他传统模型相比,当LSTM具有2层隐含层时具有更高的预测性能;DER-DDPG算法得出的优化策略在满足脱硫系统实际工艺参数需要的前提下,有效地降低了脱硫的运行成本,相比DQN算法和DDPG算法更具实际应用价值,能满足脱硫系统运行优化的需要.
-
关键词
双经验池回放机制
DDPG算法
互信息
主成分分析
粒子群
LSTM网络
运行优化
-
Keywords
Double experience replay mechanism
DDPG algorithm mutual information
principal component analysis
particle swarm
LSTM network
operation optimization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
X701.3
[环境科学与工程—环境工程]
-