基于模型的强化学习中可学习的样本加权机制被引量：3

Learnable Weighting Mechanism in Model-based Reinforcement Learning

下载PDF

导出

摘要基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练,因而有望提高样本效率.但由于训练样本不足等问题,构建的环境模型往往是不精确的,其生成的样本也会因携带的预测误差而对训练过程产生干扰.针对这一问题,提出了一种可学习的样本加权机制,通过对生成样本重加权以减少它们对训练过程的负面影响.该影响的量化方法为,先使用待评估样本更新价值和策略网络,再在真实样本上计算更新前后的损失值,使用损失值的变化量来衡量待评估样本对训练过程的影响.实验结果表明,按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法. Model-based reinforcement learning methods train a model to simulate the environment by using the collected samples and utilize the imaginary samples generated by the model to optimize the policy,thus they have potential to improve sample efficiency.Nevertheless,due to the shortage of training samples,the environment model is often inaccurate,and the imaginary samples generated by it would be deleterious for the training process.For this reason,a learnable weighting mechanism is proposed which can reduce the negative effect on the training process by weighting the generated samples.The effect of the imaginary samples on the training process is quantified through calculating the difference between the losses on the real samples before and after updating value and policy networks by the imaginary samples.The experimental results show that the reinforcement learning algorithm using the weighting mechanism is superior to existing model-based and model-free algorithms in multiple tasks.

作者黄文振尹奇跃张俊格黄凯奇 HUANG Wen-Zhen;YIN Qi-Yue;ZHANG Jun-Ge;HUANG Kai-Qi(School of Artificial Intelligence,University of Chinese Academy of Sciences,Beijing 100049,China;Center for Research on Intelligent System and Engineering(CRISE),Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China;Center for Excellence in Brain Science and Intelligence Technology,Chinese Academy of Sciences,Shanghai 200031,China)

机构地区中国科学院大学人工智能学院中国科学院自动化研究所智能系统与工程研究中心中国科学院脑科学与智能技术卓越创新中心

出处《软件学报》 EI CSCD 北大核心 2023年第6期2765-2775,共11页 Journal of Software

基金国家自然科学基金(61876181,61673375) 北京市科技创新计划(Z19110000119043) 中国科学院青年创新促进会项目中国科学院项目(QYZDB-SSW-JSC006)。

关键词基于模型的强化学习模型误差元学习强化学习深度学习 model-based reinforcement learning model-bias meta-learning reinforcement learning deep learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1邵明莉,曹鹗,胡铭,章玥,陈闻杰,陈铭松.面向优先车辆感知的交通灯优化控制方法[J].软件学报,2021,32(8):2425-2438. 被引量：5
2梁天新,杨小平,王良,韩镇远.基于强化学习的金融交易系统研究与发展[J].软件学报,2019,30(3):845-864. 被引量：14
3黄凯奇,兴军亮,张俊格,倪晚成,徐博.人机对抗智能技术[J].中国科学：信息科学,2020,50(4):540-550. 被引量：29
4梁星星,冯旸赫,黄金才,王琦,马扬,刘忠.基于自回归预测模型的深度注意力强化学习方法[J].软件学报,2020,31(4):948-966. 被引量：17

二级参考文献11

1张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
2曾鹏,吴玲达,魏迎梅.战术计划识别模型的分析、描述与设计[J].计算机与数字工程,2006,34(9):1-4. 被引量：6
3孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：633
4徐杨,张玉林,孙婷婷,苏艳芳.基于多智能体交通绿波效应分布式协同控制算法[J].软件学报,2012,23(11):2937-2945. 被引量：12
5黄凯奇,任伟强,谭铁牛.图像物体分类与检测算法综述[J].计算机学报,2014,37(6):1225-1240. 被引量：195
6黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
7杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：29
8黄凯奇,陈晓棠,康运锋,谭铁牛.智能视频监控技术综述[J].计算机学报,2015,38(6):1093-1118. 被引量：403
9吴黎兵,聂雷,刘冰艺,吴妮,邹逸飞,叶璐瑶.一种VANET环境下的智能交通信号控制方法[J].计算机学报,2016,39(6):1105-1119. 被引量：20
10胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].科技导报,2017,35(21):49-60. 被引量：37

共引文献60

1周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：3
2李国平,汤嘉,顾劲涛.面向实战的模块化教学设计——以高职期货课程为例[J].科技经济市场,2020(11):107-108.
3聂凯,孟庆海.面向仿真推演的认知不确定性仿真建模范式[J].舰船电子工程,2020,40(12):70-73. 被引量：1
4聂凯,孟庆海.基于层次情节性元强化学习的对抗行为评估[J].指挥控制与仿真,2021,43(2):65-71. 被引量：2
5拓世英,孙浩,林子涵,陈进.多模态图像智能目标识别对抗攻击[J].国防科技,2021,42(2):8-13. 被引量：5
6黄凯奇,赵鑫,李乔哲,胡世宇.视觉图灵:从人机对抗看计算机视觉下一步发展[J].图学学报,2021,42(3):339-348. 被引量：6
7聂凯,曾科军,孟庆海,魏超.人机对抗智能技术最新进展及军事应用[J].兵器装备工程学报,2021,42(6):6-11. 被引量：6
8庄春华,刘少杰,王协盼.人工智能赋能军事训练[J].国防科技,2021,42(4):129-132. 被引量：2
9王舞宇,章宁,范丹,王熙.基于动态交易和风险约束的智能投资组合优化[J].中央财经大学学报,2021(9):32-47. 被引量：5
10马贤明,张海林,王全东,齐智敏.无人机集群作战智能培育平台构建研究[J].军事运筹与系统工程,2021,35(2):68-74.

同被引文献13

1韩金亮,任海菁,吴淞玮,蒋欣欣,刘凤凯.基于多层注意力机制—柔性AC算法的机器人路径规划[J].计算机应用研究,2020,37(12):3650-3655. 被引量：5
2李可欣,王兴伟,易波,黄敏,刘小洁.智能软件定义网络[J].软件学报,2021,32(1):118-136. 被引量：27
3刘庆强,刘鹏云.基于优先级经验回放的SAC强化学习算法[J].吉林大学学报（信息科学版）,2021,39(2):192-199. 被引量：7
4谭清尹,曾颖明,韩叶,刘一静,刘哲理.神经网络后门攻击研究[J].网络与信息安全学报,2021,7(3):46-58. 被引量：10
5艾笑天,温晓玲,袁维波.军用智能软件未来发展研判[J].飞机设计,2021,41(4):1-7. 被引量：1
6肖硕,黄珍珍,张国鹏,杨树松,江海峰,李天旭.基于SAC的多智能体深度强化学习算法[J].电子学报,2021,49(9):1675-1681. 被引量：15
7黄晓冬,苑海涛,毕敬,刘涛.基于DQN的海战场舰船路径规划及仿真[J].系统仿真学报,2021,33(10):2440-2448. 被引量：10
8杜巍,刘功申.深度学习中的后门攻击综述[J].信息安全学报,2022,7(3):1-16. 被引量：10
9叶仕俊,张鹏程,吉顺慧,戴启印,袁天昊,任彬.人工智能软件系统的非功能属性及其质量保障方法综述[J].软件学报,2023,34(1):103-129. 被引量：6
10翁嘉鑫,何坚强,陆群.基于ROS平台的移动机器人自主导航技术研究[J].自动化技术与应用,2023,42(4):5-8. 被引量：4

引证文献3

1杨南禹,时正华.基于PBRS-SAC算法的无人车路径规划研究[J].计算技术与自动化,2024,43(2):82-87.
2肖子勤,史涯晴,曲豫宾,王兴亚,姚永明.智能软件的后门攻击及检测综述[J].软件导刊,2024,23(6):185-197.
3邱海峰.结合块策略的软最大距离最小化算法[J].福建电脑,2024,40(11):10-15.

1戴刚,陈军杰,薛江.基于元学习的MIMO系统半盲信道估计[J].移动通信,2023,47(6):83-88. 被引量：1
2司轲,李烨.基于分布式强化学习的功率控制算法研究[J].软件工程与应用,2023,12(3):530-542.
3开平安,邓慧.控制工程(系统)的经典力学原理[J].系统科学与数学,2023,43(5):1093-1105.
4吴智,范德威,周裕.人工智能控制湍流进展:系统、算法、成就、数据分析方法[J].力学进展,2023,53(2):273-307. 被引量：3
5金菊良,李蔓,崔毅,蒋尚明,周亮广,张宇亮.基于五元半偏减法集对势模糊数随机模拟方法的旱灾风险评估[J].华北水利水电大学学报（自然科学版）,2023,44(3):1-13. 被引量：2
6银玉博,罗世贤,万韬.具有加性和乘性噪声的线性离散时间随机系统的无模型最优跟踪控制[J].控制理论与应用,2023,40(6):1014-1022. 被引量：2

软件学报

2023年第6期

浏览历史

内容加载中请稍等...

基于模型的强化学习中可学习的样本加权机制被引量：3

参考文献4

二级参考文献11

共引文献60

同被引文献13

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于模型的强化学习中可学习的样本加权机制 被引量：3

参考文献4

二级参考文献11

共引文献60

同被引文献13

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于模型的强化学习中可学习的样本加权机制被引量：3