-
题名环境适应的高斯噪声数据增强强化学习方法
- 1
-
-
作者
朱乐乾
潘志松
-
机构
陆军工程大学指挥控制工程学院
-
出处
《陆军工程大学学报》
2024年第2期57-62,共6页
-
基金
国家自然科学基金(62076251)。
-
文摘
状态向量输入的强化学习方法是一种基本的强化学习研究方向,具有广泛的应用前景。针对目前强化学习方法数据效率低下导致学习时间较长从而难以在现实环境中应用的问题,提出了一种环境适应的高斯噪声数据增强(environment-adapted Gaussian noise augmentation,EAGNA)方法,并将其作为一个模块插入到软演员-评论家(soft actor-critic,SAC)和近端策略优化(proximal policy optimization,PPO)方法中。针对任务环境中状态向量的各个元素分布范围,对每个元素添加具有不同均值和标准差的高斯噪声,从而达到增强数据的目的。在OpenAI Gym基准测试的3个基于状态向量输入的控制任务中,EAGNA较原算法获得了更高的平均回报,提高了算法的数据效率。特别是在具有复杂状态输入的Lunar Lander控制任务中,EAGNA获得的平均回报比SAC和PPO方法分别高出30.52和26.09。
-
关键词
强化学习
数据增强
高斯噪声
状态向量输入
环境适应
-
Keywords
reinforcement learning
data augmentation
Gaussian noise
state vector input
environment adaptation
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-