-
题名逆向强化学习研究综述
被引量:2
- 1
-
-
作者
张立华
刘全
黄志刚
朱斐
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室(苏州大学)
符号计算与知识工程教育部重点实验室(吉林大学)
软件新技术与产业化协同创新中心
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第10期4772-4803,共32页
-
基金
国家自然科学基金(61772355,61702055,61876217,62176175)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172017K18,93K172021K08)
苏州市应用基础研究计划工业部分(SYG201422)
江苏高校优势学科建设工程。
-
文摘
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向.
-
关键词
逆向强化学习
模仿学习
生成对抗模仿学习
逆向最优控制
强化学习
-
Keywords
inverse reinforcement learning(IRL)
imitation learning
generative adversarial imitation learning
inverse optimal control(IOC)
reinforcement learning(RL)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-