-
题名模仿学习算法的研究与实现
- 1
-
-
作者
张羽萌
季晓君
-
机构
南京理工大学紫金学院计算机学院
-
出处
《电脑与电信》
2023年第5期38-44,共7页
-
基金
江苏省高等学校大学生创新创业训练计划项目,项目编号:202213654010Y。
-
文摘
为优化强化学习因为奖励函数不明确造成极大误差的弊端,深入研究并实现了模仿学习算法中的行为克隆算法和数据聚合算法。通过活动图对算法流程建模,通过类图对各类之间的关系建模,通过顺序图对核心交互流程建模。根据实验结果,比较行为克隆算法和数据聚合算法的优缺点,发现行为克隆算法可以离线训练避免真实环境的交互,但会使错误累加导致结果误差;数据聚合算法必须在线与环境交互,根据策略选择观测值对应状态,解决误差累积的问题。
-
关键词
强化学习
模仿学习
行为克隆算法
数据聚合算法
-
Keywords
reinforcement learning
imitation learning
behavior cloning algorithm
data aggregation algorithm
-
分类号
TP389.1
[自动化与计算机技术—计算机系统结构]
-