基于优先采样模型的离线强化学习被引量：1

Offline Reinforcement Learning Based on Prioritized Sampling Model

下载PDF

导出

摘要离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报. Offline reinforcement learning algorithms realize the approximation of learned policy to behavior policy by reducing the distribution shift,but the data distribution of offline experience buffer often directly affects the quality of learned policy.In this paper,two offline prioritized sampling models including temporal difference error-based and martingale-based are proposed to improve the training effect of reinforcement learning agent.The tem-poral difference error-based sampling model enables agents to learn more experience data with inaccurate value es-timation,thus deals with possible out-of-distribution states by estimating more accurate value functions.The mar-tingale-based sampling model enables agents to learn more positive samples beneficial to policy optimization and re-duces the impact of negative samples on value function iteration.Furthermore,the proposed offline prioritized sampling models are combined with the batch-constrained deep Q-learning(BCQ)respectively,to propose tempor-al difference error-based prioritized BCQ and martingale-based prioritized BCQ.Experimental results on D4RL and Torcs datasets show that the proposed two offline prioritized sampling models can be targeted to select the experi-ence data that are conducive to value function estimation or policy optimization,so as to obtain higher rewards.

作者顾扬程玉虎王雪松 GU Yang;CHENG Yu-Hu;WANG Xue-Song(School of Information and Control Engineering,China University of Mining and Technology,Xuzhou 221116)

机构地区中国矿业大学信息与控制工程学院

出处《自动化学报》 EI CAS CSCD 北大核心 2024年第1期143-153,共11页 Acta Automatica Sinica

基金国家自然科学基金(62176259,62373364) 江苏省重点研发计划项目(BE2022095)资助。

关键词离线强化学习优先采样模型时序差分误差鞅批约束深度Q学习 Offline reinforcement learning prioritized sampling model temporal difference error martingale batch-constrained deep Q-learning(BCQ)

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：83
2吴晓光,刘绍维,杨磊,邓文强,贾哲恒.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2021,47(8):1976-1987. 被引量：27
3殷林飞,陈吕鹏,余涛,张孝顺.基于CPSS平行系统懒惰强化学习算法的实时发电调控[J].自动化学报,2019,45(4):706-719. 被引量：5
4陈晋音,章燕,王雪柯,蔡鸿斌,王珏,纪守领.深度强化学习的攻防与安全性分析综述[J].自动化学报,2022,48(1):21-39. 被引量：9
5唐振韬,梁荣钦,朱圆恒,赵冬斌.实时格斗游戏的智能决策方法[J].控制理论与应用,2022,39(6):969-985. 被引量：2
6刘健,顾扬,程玉虎,王雪松.基于多智能体强化学习的乳腺癌致病基因预测[J].自动化学报,2022,48(5):1246-1258. 被引量：6
7张兴龙,陆阳,李文璋,徐昕.基于滚动时域强化学习的智能车辆侧向控制算法[J].自动化学报,2023,49(12):2481-2492. 被引量：2

二级参考文献46

1LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,0(3):219-227. 被引量：5
2王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：234
3余涛,袁野.基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制[J].电力系统自动化,2010,34(21):27-33. 被引量：10
4余涛,周斌,陈家荣.基于多步回溯Q(λ)学习的互联电网随机最优CPS控制[J].电工技术学报,2011,26(6):179-186. 被引量：14
5郭景华,胡平,李琳辉,王荣本,张明恒,郭烈.基于遗传优化的无人车横向模糊控制[J].机械工程学报,2012,48(6):76-82. 被引量：32
6ZHAO Jie WU XiaoGuang ZANG XiZhe YAN JiHong.Analysis of period doubling bifurcation and chaos mirror of biped passive dynamic robot gait[J].Chinese Science Bulletin,2012,57(14):1743-1750. 被引量：4
7熊刚,王飞跃,侯家琛,董西松,张家麟,付满昌.提高核电站安全可靠性的平行系统方法[J].系统工程理论与实践,2012,32(5):1018-1026. 被引量：14
8刘德君,田彦涛,张雷.双足欠驱动机器人能量成型控制[J].机械工程学报,2012,48(23):16-22. 被引量：4
9杨平,董国威.互联电网AGC的分数阶PID控制[J].电力系统及其自动化学报,2013,25(3):124-129. 被引量：7
10邓建玲,王飞跃,陈耀斌,赵向阳.从工业4.0到能源5.0:智能能源系统的概念、内涵及体系框架[J].自动化学报,2015,41(12):2003-2016. 被引量：58

共引文献126

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
6张浩,仇晨光,闫朝阳,柴赟.基于人工神经网络的电网运行维护优化决策策略[J].高电压技术,2023,49(S01):122-127. 被引量：1
7A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
8杨林瑶,陈思远,王晓,张俊,王成红.数字孪生与平行系统:发展现状、对比及展望[J].自动化学报,2019,45(11):2001-2031. 被引量：180
9姚兴虎,谭晓阳.基于奖励高速路网络的多智能体强化学习中的全局信用分配算法[J].计算机应用,2021,41(1):1-7. 被引量：1
10孙长银,吴国政,王志衡,丛杨,穆朝絮,贺威.自动化学科面临的挑战[J].自动化学报,2021,47(2):464-474. 被引量：13

同被引文献7

1刘健,顾扬,程玉虎,王雪松.基于多智能体强化学习的乳腺癌致病基因预测[J].自动化学报,2022,48(5):1246-1258. 被引量：6
2张健,姜夏,史晓宇,程健,郑岳标.基于离线强化学习的交叉口生态驾驶控制[J].东南大学学报（自然科学版）,2022,52(4):762-769. 被引量：5
3王硕汝,牛温佳,童恩栋,陈彤,李赫,田蕴哲,刘吉强,韩臻,李浥东.强化学习离线策略评估研究综述[J].计算机学报,2022,45(9):1926-1945. 被引量：1
4张博玮,郑建飞,胡昌华,裴洪,董青.基于流模型的缺失数据生成方法在剩余寿命预测中的应用[J].自动化学报,2023,49(1):185-196. 被引量：3
5孙悦雯,柳文章,孙长银.基于因果建模的强化学习控制:现状及展望[J].自动化学报,2023,49(3):661-677. 被引量：2
6程玉虎,黄龙阳,侯棣元,张佳志,陈俊龙,王雪松.广义行为正则化离线Actor-Critic[J].计算机学报,2023,46(4):843-855. 被引量：2
7王雪松,王荣荣,程玉虎.安全强化学习综述[J].自动化学报,2023,49(9):1813-1835. 被引量：6

引证文献1

1王雪松,王荣荣,程玉虎.基于表征学习的离线强化学习方法研究综述[J].自动化学报,2024,50(6):1104-1128.

1左雅慧,吴恋,焦勇.非交换微分从属鞅[J].中国科学：数学,2023,53(12):1853-1868.
2李庆君,石茹林,王曼霏.呼和浩特市大气颗粒物质量浓度变化对大气电场强度的影响研究[J].内蒙古气象,2023(3):37-43.
3杨兴雨,陈亮威,郑萧腾,张永.考虑行为克隆的深度强化学习股票交易策略[J].系统管理学报,2024,33(1):150-161. 被引量：1
4孙泽宇,夏长高,蒋俞,郭逸凡,汪若尘.基于QBP-PID的履带式作业机全向调平控制研究[J].农业机械学报,2023,54(12):397-406. 被引量：3
5李新凯,虎晓诚,马萍,张宏立.基于改进DDPG的无人驾驶避障跟踪控制[J].华南理工大学学报（自然科学版）,2023,51(11):44-55. 被引量：5
6凌争.从“理想”到现实:真实田野中真问题的习得策略[J].经济社会体制比较,2023(6):159-168. 被引量：1
7柳圆圆.金融科技创新监管演化博弈分析[J].中国物价,2024(2):85-89.
8方霁,潘威旭,林徐勋,王海燕.移动健康信息服务的个性化运动目标决策研究[J].管理工程学报,2024,38(1):253-265.
9冯俊超,张海琴,李顺平.普惠保参与罕见病保障的利益相关者分析与政策建议[J].中国卫生经济,2023,42(12):23-27. 被引量：1
10张庆华,张先超,王寅昊,陆军.面向医疗急救的信息网络服务功能链调度方法[J].电子学报,2023,51(11):3128-3136.

自动化学报

2024年第1期

浏览历史

内容加载中请稍等...

基于优先采样模型的离线强化学习被引量：1

参考文献7

二级参考文献46

共引文献126

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于优先采样模型的离线强化学习 被引量：1

参考文献7

二级参考文献46

共引文献126

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于优先采样模型的离线强化学习被引量：1