基于认知行为模型的启发加速深度Q网络

HEURISTIC ACCELERATED DEEP Q NETWORK BASED ON COGNITIVE ACTION MODEL

下载PDF

导出

摘要由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能体学习的问题。该算法将启发知识建模为基于BDI(Belief-Desire-Intention)的认知行为模型,用于产生认知行为知识引导智能体策略学习,设计启发策略网络在线引导智能体的动作选择。GYM典型环境与星际争霸2环境下实验表明,该算法可以根据环境变化动态提取有效的认知行为知识,并借助启发策略网络加速智能体策略收敛。 Due to the expansion of the state-action space or sparse rewards of the complex environment,it is more difficult for reinforcement learning agents to learn an optimal policy from scratch.Therefore,a cognitive behavior model-based heuristic accelerated deep Q network is proposed.It incorporated symbolic rules into the learning network and guided policy learning dynamically,which solved the problem of effectively accelerating agents learning.The algorithm modeled the heuristic knowledge as a BDI-based cognitive behavior model,which was used to generate cognitive behavior knowledge to guide the agents'strategy learning.The heuristic strategy network was designed to guide the agent's action selection online.Experiments in GYM's typical environment and StarCraft II environment show that the algorithm can dynamically extract effective cognitive behavior knowledge according to environmental changes,and accelerate the agent strategy convergence with the help of heuristic strategy network.

作者李嘉祥陈浩黄健张中杰 Li Jiaxiang;Chen Hao;Huang Jian;Zhang Zhongjie(College of Artificial Intelligence,National University of Defense Technology,Changsha 410073,Hunan,China)

机构地区国防科技大学智能科学学院

出处《计算机应用与软件》北大核心 2024年第9期148-155,共8页 Computer Applications and Software

基金国家自然科学基金项目(61906202)。

关键词强化学习认知行为模型启发加速深度Q网络 Reinforcement learning Cognitive behavior model Heuristic accelerated deep Q network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1姜强,药文静,赵蔚,李松.面向深度学习的动态知识图谱建构模型及评测[J].电化教育研究,2020,41(3):85-92. 被引量：27
2李晨溪,曹雷,张永亮,陈希亮,周宇欢,段理文.基于知识的深度强化学习研究综述[J].系统工程与电子技术,2017,39(11):2603-2613. 被引量：40

二级参考文献11

1李志雪.英语专业学生写前计划变量对其写作成绩影响的定量研究[J].外语教学与研究,2008,40(3):178-183. 被引量：19
2李金臻.我国智慧教育研究现状:基于知识图谱和共词分析的研究[J].电化教育研究,2016,37(10):29-34. 被引量：12
3陈明选,龙琴琴,马志强.基于概念图的协作评价活动设计与应用研究[J].电化教育研究,2016,37(11):75-84. 被引量：8
4温雪.深度学习研究述评：内涵、教学与评价[J].全球教育展望,2017,46(11):39-54. 被引量：58
5何克抗.深度学习:网络时代学习方式的变革[J].教育研究,2018,39(5):111-115. 被引量：204
6崔京菁,马宁,余胜泉.基于知识图谱的翻转课堂教学模式及其应用——以小学语文古诗词教学为例[J].现代教育技术,2018,28(7):44-50. 被引量：40
7杜文彬.国外STEM教育研究的热点主题与特点探析[J].电化教育研究,2018,39(11):120-128. 被引量：25
8李振,周东岱.教育知识图谱的概念模型与构建方法研究[J].电化教育研究,2019,40(8):78-86. 被引量：67
9姜强,药文静,晋欣泉,赵蔚.变革与新生:基于众包的自组织协同知识建构研究——面向深度学习的课堂教学结构化变革研究之一[J].现代远距离教育,2019,0(6):3-10. 被引量：20
10药文静,姜强,王利思,赵蔚.学习分析视域下大学生课堂参与边缘化诊断及策略干预研究——面向深度学习的课堂教学结构化变革研究之二[J].现代远距离教育,2019,0(6):11-19. 被引量：14

共引文献65

1萧萍,冯吉红,唐轶.卓越教师培养知识图谱的建构方式研究——以上海市徐汇区优秀教师高研班培养项目为例[J].教育传播与技术,2022(S01):68-73.
2吴志强,张俊峰.基于深度强化学习的自动态势估计研究[J].军事运筹与系统工程,2018,32(2):42-46. 被引量：13
3陈希亮,曹雷,何明,李晨溪,徐志雄.深度逆向强化学习研究综述[J].计算机工程与应用,2018,54(5):24-35. 被引量：18
4董倩,黄国强,王艳君,邓祖湖,陈如凯.硅对果蔗组培腋芽苗增殖生长及相关指标的影响[J].热带作物学报,2018,39(1):116-120. 被引量：4
5贾雪原,黄东旭,余欣,蒋子平,路来金.Ⅰ型神经纤维瘤病26例临床回顾性研究[J].中华手外科杂志,2018,34(2):118-120. 被引量：4
6齐岳,黄硕华.基于深度强化学习DDPG算法的投资组合管理[J].计算机与现代化,2018(5):93-99. 被引量：13
7夏旻,宋稳柱,施必成,刘佳.基于加权密集连接卷积网络的深度强化学习方法[J].计算机应用,2018,38(8):2141-2147. 被引量：9
8孙毅,刘迪,李彬,徐永海.深度强化学习在需求响应中的应用[J].电力系统自动化,2019,43(5):183-194. 被引量：36
9何杨,肖基毅.基于深度强化学习的网络共享资源智能调度方法[J].自动化与仪器仪表,2019,0(6):80-82. 被引量：3
10孙鹏,孙若莹,刘滨翔.基于Double-DQN的平衡类游戏改善[J].电子设计工程,2019,27(14):112-116. 被引量：1

1王钰涵.“互联网+”背景下网络在线学习平台在高校教学管理中的应用[J].中文科技期刊数据库（全文版）教育科学,2024(9):0092-0095.
2王靖.基于动漫元素的高中数学教学策略优化研究[J].炫动漫,2024(18):0202-0204.
3谢云霏,贾李蓉.中医药知识图谱构建技术及应用的研究进展[J].中国医药导报,2024,21(20):62-66.
4孙旋迪,申晓红,王海燕,闫永胜,锁健.图网络在线异常检测跨域耦合模型优化方法[J].兵工学报,2024,45(9):3261-3273.
5谢春慧.英语单元作业促进小学生素养发展的策略[J].天津教育,2024(23):167-169.
6袁晓鹏,申少辉,汪涛.基于加权FCM聚类算法的电力交易数据动态提取模型[J].微型电脑应用,2024,40(8):168-171.
7杨志明.数智赋能人力资源的创新[J].新理财（政府理财）,2024(8):24-27.
8陈淼.城市微纪录片的叙事创新及价值意义——以《申生不息》为例[J].电影评介,2024(12):81-86.
9朱军,赖建波,谢亚坤,陈佩菁,孙文锦.知识引导的桥梁建造过程时空叙事三维可视化方法[J].武汉大学学报（信息科学版）,2024,49(9):1650-1660.
10陈玥.数字化转型背景下组织韧性的培育研究综述[J].电子商务评论,2024,13(3):5203-5211.

计算机应用与软件

2024年第9期

浏览历史

内容加载中请稍等...

基于认知行为模型的启发加速深度Q网络

参考文献2

二级参考文献11

共引文献65

相关作者

相关机构

相关主题

浏览历史