基于生成对抗网络的强化学习算法的研究被引量：3

Research on Reinforcement Learning Algorithm Based on Generative Adversarial Network

下载PDF

导出

摘要为了解决强化学习在训练样本中出现的整体工作效率滞后问题,文章研究提出了一种新方法。该方法将真实经验样本集作为模板,生成理论上可行的虚拟样本,通过智能体agent进行一次训练,智能体agent会将好的虚拟样本并入到真实样本集当中,提高训练样本的质量。该研究利用Open AI Gym作为仿真平台实现小车爬山仿真实验,验证了用生成对抗网络思想实现强化学习算法的有效性,对比Q学习算法,文章提出的“基于生成对抗网络的强化学习算法”(GRL)在追踪数据输出时,其输出的目标函数收敛次数大约少于40次,大大提高学习速度,改善了现有技术中存在网络滞后的学习情况。 In order to improve the overall work efficiency lag problem of reinforcement learning in training samples,this study proposes a new reinforcement learning algorithm based on generative adversarial networks.It uses the real experience sample set as a template to generate theoretically feasible virtual samples,and conducts a training through an agent,and the agent incorporates the good virtual samples into the real sample set to improve the quality of the training samples.This study uses Open AI Gym as a simulation platform to realize the simulation experiment of car climbing,and verifies the effectiveness of the reinforcement learning algorithm implemented with the idea of generative adversarial network.When tracking data output,the output objective function converges less than 40 times,which greatly improves the learning speed and improves the learning situation with network lag in the prior art.

作者俞君杰 YU Junjie(Jiangsu Electric Power Information Technology Co. Ltd., Nanjing 210013, China)

机构地区江苏电力信息技术有限公司

出处《微型电脑应用》 2022年第6期174-176,190,共4页 Microcomputer Applications

关键词强化学习生成对抗网络训练样本相对熵函数收敛 reinforcement learning generative confrontation network training samples relative entropy function convergence

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1陈希亮,曹雷,李晨溪,徐志雄,何明.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606. 被引量：24
2徐志雄,曹雷,陈希亮.基于强化学习的无人坦克对战仿真研究[J].计算机工程与应用,2018,54(8):166-171. 被引量：13
3王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：325
4吴熙,唐子逸,徐青山,周亦洲.基于Q学习算法的综合能源系统韧性提升方法[J].电力自动化设备,2020,40(4):146-152. 被引量：10
5吴宏杰,戴大东,傅启明,陈建平,陆卫忠.强化学习与生成式对抗网络结合方法研究进展[J].计算机工程与应用,2019,55(10):36-44. 被引量：11
6曹志义,牛少彰,张继威.基于生成对抗网络的遮挡图像修复算法[J].北京邮电大学学报,2018,41(3):81-86. 被引量：8
7罗耀.基于ResUnet对抗网络的脑瘤图像分割方法[J].微型电脑应用,2021,37(7):13-15. 被引量：2

二级参考文献38

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：333
2王飞跃.计算实验方法与复杂系统行为分析和决策评估[J].系统仿真学报,2004,16(5):893-897. 被引量：147
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4王飞跃.关于复杂系统的建模、分析、控制和管理[J].复杂系统与复杂性科学,2006,3(2):26-34. 被引量：64
5高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
6马耀飞,龚光红,彭晓源.基于强化学习的航空兵认知行为模型[J].北京航空航天大学学报,2010,36(4):379-383. 被引量：14
7王飞跃,刘德荣,熊刚,程长建,赵冬斌.复杂系统的平行控制理论及应用[J].复杂系统与复杂性科学,2012,9(3):1-12. 被引量：49
8赵凤飞,覃征.一种多动机强化学习框架[J].计算机研究与发展,2013,50(2):240-247. 被引量：6
9王飞跃.平行控制:数据驱动的计算控制方法[J].自动化学报,2013,39(4):293-302. 被引量：131
10朱如华.起步加速——德国军用无人机发展势头迅猛[J].环球军事,2013(8):48-50. 被引量：1

共引文献379

1熊伟,高娟娟,刘锴.基于GAN模型优化的神经机器翻译[J].计算机系统应用,2022,31(12):95-103. 被引量：3
2宁宁,金鑫,张晓昆,李艳楠.基于GAN的人脸图像光照迁移[J].北京电子科技学院学报,2019(4):33-41.
3于德山.人工智能时代的视觉真相及其反思[J].社会科学战线,2020(1):224-233. 被引量：3
4张儒峰,李雪,姜涛,陈厚合.城市综合能源系统韧性评估与提升综述[J].全球能源互联网,2021,4(2):122-132. 被引量：17
5李可,祁阳,宿磊,顾杰斐,苏文胜.基于改进ACGAN的钢表面缺陷视觉检测方法[J].机械工程学报,2022,58(24):32-40. 被引量：2
6支双双,赵庆会,金大海,唐琎.基于CNN和DLTL的步态虚拟样本生成方法[J].计算机应用研究,2020,37(1):291-295. 被引量：1
7吴雅琴,陈林,侯云峰.基于CNN-GAN的信道状态信息室内定位算法[J].电子测量技术,2023,46(24):119-126.
8王可新,王力.基于生成对抗网络的图像修复算法[J].智能计算机与应用,2020(4):9-12. 被引量：1
9Ran Li,Yi Han,Tao Ma,Huilan Liu.Nash-Q learning-based collaborative dispatch strategy for interconnected power systems[J].Global Energy Interconnection,2020,3(3):227-236. 被引量：3
10王守相,陈海文,潘志新,王建明.采用改进生成式对抗网络的电力系统量测缺失数据重建方法[J].中国电机工程学报,2019,39(1):56-64. 被引量：88

同被引文献38

1尹学渊,陈兴蜀,陈林.虚拟化IaaS环境安全域与访问控制模型研究[J].小型微型计算机系统,2019,40(1):111-116. 被引量：14
2张书旋,康海燕,闫涵.基于Skyline计算的社交网络关系数据隐私保护[J].计算机应用,2019,39(5):1394-1399. 被引量：7
3马秋琳,金开军,李疆.基于ABB工业机器人的智能曲面雕刻辅助系统的设计及实现[J].贵阳学院学报（自然科学版）,2019,14(2):3-7. 被引量：2
4董祥祥,高昂,梁英,毕晓迪.动态社会网络数据发布隐私保护方法[J].计算机科学与探索,2019,13(9):1441-1458. 被引量：8
5黄海平,张东军,王凯,朱毅凯,王汝传.带权值的大规模社交网络数据隐私保护方法[J].计算机研究与发展,2020,57(2):363-377. 被引量：12
6张梅舒,徐雅斌.多维数值型敏感属性数据的个性化隐私保护方法[J].计算机应用,2020,40(2):491-496. 被引量：18
7陆立华,杜承烈.复杂式网络用户隐私数据多层分类存储仿真[J].计算机仿真,2020,37(3):405-408. 被引量：5
8黄姣英,李胜玉,高成,杨达明.一种时序型总线硬件木马的植入与检测[J].计算机工程,2021,47(3):160-165. 被引量：4
9朱鹏,胡剑,吕宋皓,戚湧.基于区块链的社交网络隐私数据保护方法研究[J].情报科学,2021,39(3):94-100. 被引量：32
10陈成伟,院旺,陈攀,丁守鸿,谢源,宋海川,马利庄.基于隐空间约束生成对抗网络的活体检测[J].中国科学：信息科学,2021,51(3):367-382. 被引量：1

引证文献3

1邱建铭.AI强化学习算法在陶瓷雕刻机器设备中的应用研究[J].自动化与仪器仪表,2023(12):192-196.
2芦伟,邵峰,黄明瑞.基于等保2.0的网络隐私数据联动防护控制方法[J].微型电脑应用,2024,40(8):216-219.
3胡斌,马平,王越,杨浩.基于SIR模型的无线网络安全威胁态势量化评估算法[J].吉林大学学报（信息科学版）,2024,42(4):710-716.

1关庆升,李思南,杨淼,朱青龙,董佳运,赵宇锋.锂离子电池过渡金属氧化物负极材料的电压滞后问题[J].辽宁科技学院学报,2022,24(3):4-8.
2赵丽莉.网络背景下高校大学生意识形态安全问题研究[J].产业与科技论坛,2022,21(12):287-288.
3吕超,崔格格,孟相浩,陆军琰,徐优志,龚建伟.基于图表示的智能车行人意图识别方法[J].北京理工大学学报,2022,42(7):688-695. 被引量：2
4陈琳,陈仕伟.大数据时代高校思政课混合教学模式研究--优势、问题与对策[J].保山学院学报,2022,41(3):7-12. 被引量：3
5陆荣秀,赖路璐,杨辉,朱建勇.基于虚拟样本生成的铈镨/钕组分含量预测[J].传感器与微系统,2022,41(7):152-156.
6董旭冉.新形势下淮阴师范学院团属微信公众号运营路径研究[J].新媒体研究,2022,8(4):67-69.
7金淳,冷浕伶,胡畔.基于启发式Q学习的汽车涂装车间作业排序优化[J].运筹与管理,2022,31(6):1-8. 被引量：3
8裴佩,石金富,高志华.正立倒立面孔学习效应过程性对比研究[J].心理学进展,2022,12(6):2154-2160.
9王冰玉.新媒体环境下创新高校宣传思想工作路径研究[J].秦智,2022(6):68-70.
10骆顺婷.高校公关危机事件的舆情传播与治理研究[J].齐齐哈尔大学学报（哲学社会科学版）,2022(6):159-161. 被引量：1

微型电脑应用

2022年第6期

浏览历史

内容加载中请稍等...

基于生成对抗网络的强化学习算法的研究被引量：3

参考文献7

二级参考文献38

共引文献379

同被引文献38

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络的强化学习算法的研究 被引量：3

参考文献7

二级参考文献38

共引文献379

同被引文献38

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络的强化学习算法的研究被引量：3