基于D2GA的逆强化学习算法

Inverse reinforcement learning algorithm based on D2GA

下载PDF

导出

摘要针对传统生成对抗逆强化学习存在的专家样本获取困难以及生成样本利用率低的问题,提出一种基于事后经验回放策略HER的双鉴别器生成对抗D2GA逆强化学习算法。在该算法中,HER自动合成类专家的正样本,通过D2GA与强化学习方法柔性动作-评价SAC生成的负样本进行对抗性训练,基于所求解的最优奖励函数,利用SAC求解最优策略。将所提出的D2GA算法与经典的逆强化学习算法在Fetch机械臂环境中的4种任务进行了比较实验。结果表明:在没有可用演示数据的情况下,D2GA在相对少的回合数内完成任务的成功率可以达到理想性能,优于当前流行的逆强化学习算法。 Aiming at the difficulty in obtaining expert demonstrations and the low utilization rate of generated samples in the traditional generative adversarial reinforcement learning,a double discriminator generative adversarial(D2GA)inverse reinforcement learning algorithm based on hindsight experience replay(HER)is proposed.In this algorithm,HER automatically synthesizes positive expert-like samples,and conducts adversarial training with negative samples generated by D2GA and reinforcement learning algorithm soft actor-critic(SAC).Based on the solved optimal reward function,SAC is used to solve the optimal strategy.The proposed D2GA algorithm is compared with the classical inverse reinforcement algorithm on four tasks in the Fetch environment.The results show that the success rate of D2GA in completing the task in relatively few rounds can reach ideal performance without available demonstration data,which is better than the current popular inverse reinforcement learning algorithm.

作者段成龙袁杰常乾坤张宁宁 DUAN Cheng-long;YUAN Jie;CHANG Qian-kun;ZHANG Ning-ning(School of Electrical Engineering,Xinjiang University,Urumqi 830017,China)

机构地区新疆大学电气工程学院

出处《计算机工程与科学》 CSCD 北大核心 2024年第11期2053-2062,共10页 Computer Engineering & Science

基金国家自然科学基金(62263031) 新疆维吾尔自治区自然科学基金(2022D01C53)。

关键词深度强化学习事后经验回放逆强化学习生成对抗网络 deep reinforcement learning hindsight experience replay inverse reinforcement learning generative adversarial network

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1陈佳盼,郑敏华.基于深度强化学习的机器人操作行为研究综述[J].机器人,2022,44(2):236-256. 被引量：27
2陈希亮,曹雷,何明,李晨溪,徐志雄.深度逆向强化学习研究综述[J].计算机工程与应用,2018,54(5):24-35. 被引量：19
3蔡钺,游进国,丁家满.基于近端策略优化与对抗学习的对话生成[J].计算机工程与科学,2020,42(9):1680-1689. 被引量：1
4陆彦辉,柳寒,李航,朱光旭.基于多鉴别器生成对抗网络的时间序列生成模型[J].通信学报,2022,43(10):167-176. 被引量：2

二级参考文献15

1倪自强,王田苗,刘达.基于视觉引导的工业机器人示教编程系统[J].北京航空航天大学学报,2016,42(3):562-568. 被引量：29
2陈兴国,俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报,2016,42(5):685-695. 被引量：32
3赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
4伍锡如,黄国明,孙立宁.基于深度学习的工业分拣机器人快速视觉识别与定位算法[J].机器人,2016,38(6):711-719. 被引量：54
5李晨溪,曹雷,张永亮,陈希亮,周宇欢,段理文.基于知识的深度强化学习研究综述[J].系统工程与电子技术,2017,39(11):2603-2613. 被引量：40
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：475
7多南讯,吕强,林辉灿,卫恒.迈进高维连续空间:深度强化学习在机器人领域中的应用[J].机器人,2019,41(2):276-288. 被引量：24
8陈晨,朱晴晴,严睿,柳军飞.基于深度学习的开放领域对话系统研究综述[J].计算机学报,2019,42(7):1439-1466. 被引量：48
9郝长盈,兰艳艳,张海楠,郭嘉丰,徐君,庞亮,程学旗.基于拓展关键词信息的对话生成模型[J].山东大学学报（理学版）,2019,54(7):68-76. 被引量：1
10秦方博,徐德.机器人操作技能模型综述[J].自动化学报,2019,45(8):1401-1418. 被引量：26

共引文献45

1马骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真,2018,40(6):68-72. 被引量：42
2吴宏杰,戴大东,傅启明,陈建平,陆卫忠.强化学习与生成式对抗网络结合方法研究进展[J].计算机工程与应用,2019,55(10):36-44. 被引量：11
3何杨,肖基毅.基于深度强化学习的网络共享资源智能调度方法[J].自动化与仪器仪表,2019,0(6):80-82. 被引量：3
4陈建平,陈其强,傅启明,高振,吴宏杰,陆悠.基于生成对抗网络的最大熵逆强化学习[J].计算机工程与应用,2019,55(22):119-126. 被引量：3
5李国法,陈耀昱,吕辰,陶达,曹东璞,成波.智能汽车决策中的驾驶行为语义解析关键技术[J].汽车安全与节能学报,2019,10(4):391-412. 被引量：6
6孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66
7曹雷,孙彧,陈希亮,吴宜珈.联合作战任务智能规划关键技术及其应用思考[J].国防科技,2020,41(3):49-56. 被引量：10
8文永明,石晓荣,黄雪梅,余跃.一种无人机集群对抗多耦合任务智能决策方法[J].宇航学报,2021,42(4):504-512. 被引量：15
9张艳伟,蔡梦蝶.基于逆向强化学习的装船时堆场翻箱智能决策[J].同济大学学报（自然科学版）,2021,49(10):1417-1425. 被引量：7
10程哲,胡超,辛阔,唐卓尧,吴小刚.基于交互式学习技术的多元化业务建模框架研究[J].信息技术,2021,45(12):49-54. 被引量：2

1Li Xiaoyang.Robots into Reality--The booming of China’s robotics industry points to intelligent future[J].China Report ASEAN,2024,9(8):48-50.
2孙思.我能算出来[J].小学数学教师,2024(10):85-87.
3赵何超,何洋楠,肖佳欢.基于深度神经网络的红外与可见光图像融合算法研究[J].数字通信世界,2024(10):34-36.
4李悦霖.英国Fetch项目将开发低温液氢燃料系统[J].国际航空,2024(8):74-75.
5许之光.人工智能技术在数据安全中的应用分析[J].信息与电脑,2024,36(16):174-178.
6王雅楠,杨萌萌,张军锋,张慧娟.基于双鉴别器策略的空间感知型人群计数算法[J].中国科技论文在线精品论文,2024,17(3):346-349.
7宋云,付莉.基于去噪自编码器生成对抗网络的网络流量异常检测[J].电脑编程技巧与维护,2024(10):160-162.
8吴聪,孟敏智,郑炜,何琨,纪守领.基于生成对抗网络和对比学习的假新闻检测方法研究[J].网络空间安全科学学报,2024,2(3):27-40.
9赵武清,柏姗姗,李承钊,耿新,李科德.基于深度学习算法的智能网卡数据流卸载模型[J].粘接,2024,51(11):139-142.
10卢研宏,李沅,屈绍宇.基于云层去除的偏振光导航应用研究[J].现代电子技术,2024,47(21):171-176.

计算机工程与科学

2024年第11期

浏览历史

内容加载中请稍等...

基于D2GA的逆强化学习算法

参考文献4

二级参考文献15

共引文献45

相关作者

相关机构

相关主题

浏览历史