-
题名广义行为正则化离线Actor-Critic
被引量:2
- 1
-
-
作者
程玉虎
黄龙阳
侯棣元
张佳志
陈俊龙
王雪松
-
机构
中国矿业大学信息与控制工程学院
华南理工大学计算机科学与工程学院
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第4期843-855,共13页
-
基金
国家自然科学基金项目(62176259,61976215)
江苏省重点研发计划项目(BE2022095)资助.
-
文摘
行为正则化Actor-Critic(BRAC)是一种离线强化学习算法,通过将当前策略与行为策略之间的Kullback-Leibler(KL)散度作为策略目标函数的正则化项来缓解分布偏移问题.但是,由于KL散度是一种无界的分布差异度量,在策略差异过大时,策略目标函数中的累积期望回报项将仅对策略改进发挥有限的作用,从而导致最终学到的策略性能较差.针对该问题,将当前策略与行为策略之间的斜对称Jensen-Shannon(JS)散度作为策略目标函数的正则化项,提出了一种广义行为正则化离线Actor-Critic(GOACBR)算法.理论分析表明:由于斜对称JS散度有界,将其作为正则化项有助于降低策略性能差异.进一步,针对行为策略未知导致难以直接计算当前策略和行为策略间斜对称JS散度的问题,设计了一个辅助网络来对其进行间接估计.最后,给出了GOACBR的收敛性理论证明.在D4RL基准数据集上的评估结果表明:相较于BRAC,GOACBR在所有测试任务上获得的平均累积回报总和提升了289.8%.相关代码公布在https://github.com/houge1996/GOAC.
-
关键词
离线Actor-Critic
行为正则化
斜对称JS散度
分布偏移
-
Keywords
offline actor-critic
behavior regularization
skew-symmetric JS divergence
distribution shift
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-