-
题名基于深度强化学习的智能决策方法
被引量:3
- 1
-
-
作者
熊蓉玲
段春怡
冉华明
杨萌
冯旸赫
-
机构
中国西南电子技术研究所
西南交通大学数学学院
国防科技大学系统工程学院
-
出处
《电讯技术》
北大核心
2023年第1期1-6,共6页
-
文摘
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization,PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。
-
关键词
智能决策
深度强化学习
近端策略优化
动作掩膜
-
Keywords
intelligent decision making
deep reinforcement learning
proximal policy optimization
action mask
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-