基于内在好奇心与自模仿学习的探索算法

Exploration algorithm based on intrinsic curiosity and SIL

下载PDF

导出

摘要针对深度强化学习算法在部分可观测环境中面临的稀疏奖励、信息缺失等问题,提出一种结合好奇心模块与自模仿学习的近端策略优化算法。该算法利用随机网络来生成探索过程中的经验样本数据,然后利用优先经验回放技术选取高质量样本,通过自模仿学习对优秀的序列轨迹进行模仿,并更新一个新的策略网络用于指导探索行为。在Minigrid环境中设置了消融与对比实验,实验结果表明,所提算法在收敛速度上具有明显优势,并且能够完成更为复杂的部分可观测环境探索任务。 In allusion to the problems of sparse rewards and missing information faced by deep reinforcement learning algorithm in partially observable environments,a proximal policy optimization algorithm combining curiosity module and self-imitation learning(SIL)is proposed.In this algorithm,the random network is used to generate empirical sample data during the exploration process,and then the priority experience replay technology is used to select high-quality samples.The excellent sequence trajectories are imitated by means of SIL,and a new policy network is updated to guide the exploration behavior.The ablation and comparison experiments were performed in the Minigrid environment.The experimental results show that the proposed algorithm has a significant advantage in convergence speed and can complete more complex exploration tasks of partially observable environments.

作者吕相霖臧兆祥李思博邹耀斌 LÜXianglin;ZANG Zhaoxiang;LI Sibo;ZOU Yaobin(Hubei Key Laboratory of Intelligent Vision Monitoring for Hydropower Engineering,China Three Gorges University,Yichang 443002,China;School of Computer and Information,China Three Gorges University,Yichang 443002,China)

机构地区三峡大学水电工程智能视觉监测湖北省重点实验室三峡大学计算机与信息学院

出处《现代电子技术》北大核心 2024年第16期137-144,共8页 Modern Electronics Technique

基金国家自然科学基金项目(61502274) 湖北省自然科学基金项目(2015CFB336)

关键词好奇心模块自模仿学习深度强化学习近端策略优化随机网络优先经验回放 curiosity module self-imitation learning deep reinforcement learning proximal policy optimization random network priority experience replay

分类号 TN911-34 [电子电信—通信与信息系统] TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1张峻伟,吕帅,张正昊,于佳玉,龚晓宇.基于样本效率优化的深度强化学习方法综述[J].软件学报,2022,33(11):4217-4238. 被引量：8
2刘国名,李彩虹,李永迪,张国胜,张耀玉,高腾腾.基于改进PPO算法的机器人局部路径规划[J].计算机工程,2023,49(2):119-126. 被引量：5
3崔文华,李东,唐宇波,柳少军.基于深度强化学习的兵棋推演决策方法框架[J].国防科技,2020,41(2):113-121. 被引量：14

二级参考文献16

1王牛,李祖枢,李永龙,潘娅.带驱动直流电机两轮机器人运动系统仿真[J].系统仿真学报,2008,20(17):4633-4638. 被引量：7
2刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：38
3赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：128
4高艺,马国庆,于正林,曹国华.一种六自由度工业机器人运动学分析及三维可视化仿真[J].中国机械工程,2016,27(13):1726-1731. 被引量：26
5宋晓琳,周南,黄正瑜,曹昊天.改进RRT在汽车避障局部路径规划中的应用[J].湖南大学学报（自然科学版）,2017,44(4):30-37. 被引量：61
6潘昕,吴旭升,侯新国,冯源.基于遗传蚂蚁混合算法的AUV全局路径规划[J].华中科技大学学报（自然科学版）,2017,45(5):45-49. 被引量：37
7胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].科技导报,2017,35(21):49-60. 被引量：37
8刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：461
9王惠.迁移学习研究综述[J].电脑知识与技术（过刊）,2017,23(11X):203-205. 被引量：19
10唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：90

共引文献24

1张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：18
2王兴众,王敏,罗威.基于SAC算法的作战仿真推演智能决策技术[J].中国舰船研究,2021,16(6):99-108. 被引量：6
3王晓丹,向前,李睿,来杰.深度学习研究及军事应用综述[J].空军工程大学学报（自然科学版）,2022,23(1):1-11. 被引量：8
4王丹妮,徐丽,李思照.军事智能推演研究综述[J].计算机与网络,2022,48(9):43-51.
5文东日.深度强化学习在军事领域的应用研究[J].军事运筹与评估,2022,37(3):75-80. 被引量：2
6包战,张驭龙,朱松岩,王春光,刘忠.智能临机规划技术要点研究[J].国防科技,2023,44(1):112-118.
7林泽阳,赖俊,陈希亮,王军.基于课程强化学习的联合海空博弈决策模型训练方法[J].火力与指挥控制,2023,48(3):25-34.
8尹奇跃,赵美静,倪晚成,张俊格,黄凯奇.兵棋推演的智能决策技术与挑战[J].自动化学报,2023,49(5):913-928. 被引量：8
9刘玮,张永亮,程旭.基于深度强化学习的人机智能对抗综述[J].指挥信息系统与技术,2023,14(2):28-37.
10沈寿林,肖毅,朱江,白承森.作战指挥态势理解智能算法应用[J].指挥信息系统与技术,2023,14(2):52-57. 被引量：1

1张涌逸.基于DDRQN的认知无线电频谱共享[J].电脑编程技巧与维护,2024(6):108-110.
2姚蔚然,田昊宇,张欧阳,吴立刚.基于任务效能评价张量进化的航天器任务规划[J].空间科学与试验学报,2024,1(1):86-94.
3白如玉,焦朋朋,陈越,张瑶.基于强化学习的车道级可变限速控制策略[J].交通信息与安全,2024,42(1):105-114.
4张居华,何戡,连莲,曹辰,宗学军.能源控制系统网络信息安全仿真平台构架与应用研究[J].沈阳化工大学学报,2023,37(6):542-546.
5苏苏,柚柚(设计).逃出白垩纪[J].儿童故事画报,2024(57).
6束开荣.算法协作:平台劳动中“技术—组织”的嵌入与常规化实践[J].新闻大学,2024(6):34-49.
7伍浩松,张焰.美将首次为空间探索提供镅-241热源[J].国外核新闻,2024(7):21-21.
8汤雨晴,张曼,齐振昌,李庆豪,李艺雷,董涵方,孙娟,金鑫.pBD-2对热应激致小鼠小肠形态结构损伤及紧密连接蛋白表达的修复作用[J].黑龙江畜牧兽医,2024(14):118-123.
9韦佼杏.公安机关侦查信息公开的立场与路径[J].中国刑警学院学报,2024(3):26-34.

现代电子技术

2024年第16期

浏览历史

内容加载中请稍等...

基于内在好奇心与自模仿学习的探索算法

参考文献3

二级参考文献16

共引文献24

相关作者

相关机构

相关主题

浏览历史