鸽子强化学习过程中内部学习状态的动态建模研究被引量：2

Dynamic Modeling of Internal Cognitive Status of Pigeon in the Process of Reinforcement Learning

下载PDF

导出

摘要经典Q-learning强化学习模型中学习率为一固定参数,无法有效反映认知学习的动态过程。提出了一种将学习速率表征为时变参数的Q-Learning强化学习模型,给出了利用近期历史行为数据估计阶段性学习速率的方法。为了评估验证该模型的性能,设计了条件刺激与操作行为奖励无关→相关→无关三个阶段动态试验范式,用以观察和分析鸽子在随机强化、固定强化,以及固定强化关系消退等不同条件下的学习行为变化过程,采用动物触屏行为系统完成了3只鸽子颜色刺激-啄屏抉择认知训练,利用训练过程中不同session的行为数据对动态学习率进行了最小二乘估计。分析结果表明:可以获得更小的行为预测误差,误差下降收敛的速度更快,同时学习率的动态变化过程可以有效的反映动物认知行为训练过程中的内在学习状态。 The learning rate in classic Q-learning model is a fixed parameter,which can't reflect the dynamic learning process of agent. So a new Q-Learning model was proposed in which the learning rate is time-varying. To evaluate and verify the performance of this new model,firstly,a three-phase paradigm was designed,in which the relationship between conditioned stimulus and operant behavior varied from unrelated to related and eventually became unrelated. Next,a touch-screen behavioral system of animal was employed to complete decision-making cognitive training of three pigeons. The data from different sessions in the process of training was used to estimate the phased optimal learning rate by means of least squares estimation. The results indicated that Q-learning model of Dynamic learning rate can obtain smaller behavior prediction error,and dynamic process of learning rate can effectively reflect the inherent learning state in the animal cognitive behavioral training process.

作者师黎陶梦妍李志辉

机构地区郑州大学电气工程学院

出处《科学技术与工程》北大核心 2017年第13期120-125,共6页 Science Technology and Engineering

关键词动态学习率 Q-LEARNING 鸽子行为 dynamic learning rate Q-learning pigeon behavior

分类号 Q811.211 [生物学—生物工程] Q811.8 [生物学—生物工程]

引文网络
相关文献

参考文献3

1李木军,刘箴,林君焕,于力鹏.基于情感计算和Q-learning的agent自主追逐行为过程研究[J].计算机应用研究,2014,31(6):1710-1713. 被引量：3
2马奇,张立明.模拟昆虫视觉-行为抉择的强化学习模型[J].生物物理学报,2008,24(3):211-220. 被引量：4
3高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：264

二级参考文献25

1柏家林.哺乳动物细胞高效表达系统研究进展[J].西北民族大学学报（自然科学版）,2013,34(1):43-51. 被引量：3
2Tang SM, Guo AK. Choice behavior of Drosophila facing contradictory visual cues. Scie rice, 2001,294:1543-1547
3Zhang K, Guo JZ, Peng YQ, Xi W, Guo AK.Dopamine-mushroom body circuit regulates saliency-based decision-making in Drosophila. Science, 2007,316:1901-1904
4Onat A, Kita H, Nishikawa Y. Recurrent neural networks for reinforcement learning: architecture, learning algorithms and internal representation. Neural Networks Proceedings of IEEE International Joint Conference, 1998,3:2010-2015
5Onat A. Q-learning with recurrent neural networks as a controller for the inverted pendulum problem. The Fifth International Conference on Neural Information Processing, 1998,21-23:837-840
6Baird LC. Residual algorithms: reinforcement learning with function approximation. Proceedings of the 12th International Conference on Machine Learning (ICML95), 1995. 30-37
7Richard SS, Andrew GB. Reinforcement learning: introduction. Cambridge, MA: MIT Press, 1998. 6-23
8Watkins CJ, Dayan P. Technical note: Q-learning. Machine Learning, 1992,8:279-292
9Kaelbling LP, Littman ML. Reinforcement learning: a survey. Journal of Artificial Intelligence Research, 1996,4:237-285
10Mills PM, Zomaya AY. Reinforcement learning using back-propagation as a building block neural networks. Proceeding of IEEE International Joint Conference on Neural Network, 1991. 1554-1559

共引文献268

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献10

1王飞跃,曹东璞,魏庆来.强化学习:迈向知行合一的智能机制与算法[J].智能科学与技术学报,2020(2):101-106. 被引量：12
2蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015,52(3):614-628. 被引量：248
3王斌,王金,宁小倩.基于黄金比例的关联规则挖掘算法[J].计算机仿真,2015,32(8):302-305. 被引量：6
4陈康,王丹丹.关联规则数据结构分布重排的数据库索引算法[J].科技通报,2015,31(10):178-180. 被引量：6
5樊超,宗利永.MOOC在线学习行为的人类动力学分析[J].开放教育研究,2016,22(2):53-58. 被引量：29
6陈妍,张新慧,朱海萍,赵晓梅.面向网络教育学院的学习行为分析[J].计算机应用,2016,36(A01):224-227. 被引量：5
7姜永超.基于数据挖掘的学生选课及学习行为分析算法研究[J].现代电子技术,2016,39(13):145-148. 被引量：13
8张继荣,王向阳.基于XML数据挖掘的Apriori算法的研究与改进[J].计算机测量与控制,2016,24(6):178-180. 被引量：13
9陈宏.基于关联规则挖掘算法的用电负荷能效研究[J].电子设计工程,2017,25(4):79-82. 被引量：9
10阮晓钢,刘鹏飞,朱晓庆.基于气味奖励引导的Q-learning环境认知方法[J].清华大学学报（自然科学版）,2021,61(3):254-260. 被引量：5

引证文献2

1李飒.基于关联规则的学习行为关联度分析方法研究[J].微电子学与计算机,2018,35(6):65-68. 被引量：5
2冯浩然,尚志刚,杨莉芳,靳富丽,马佐豪.基于Q学习参数辨识的动物学习能力评价方法[J].科学技术与工程,2022,22(27):11842-11849.

二级引证文献5

1常斯维.基于关联规则特征提取的心理大数据评估方法[J].周口师范学院学报,2020(2):144-147. 被引量：3
2张文梅,祁彬斌,范文翔.数据驱动的教学行为分析:现状、逻辑与发展趋向[J].远程教育杂志,2021,39(1):84-93. 被引量：27
3张瑞全.基于数据挖掘算法的大学生体育学习效果分析[J].唐山师范学院学报,2021,43(3):96-100. 被引量：3
4尤嘉铖.基于大数据分析的气象观测数据质量控制算法研究[J].电子设计工程,2022,30(11):103-107. 被引量：2
5杨丽,徐绪堪,于成成.基于结构方程视角的大学生英语学习现状及影响因素研究[J].邵阳学院学报（社会科学版）,2023,22(3):75-81. 被引量：1

1尚玉昌.动物的印记学习行为[J].大自然,2006(1):27-29.
2徐景煊.黑猩猩识人脸[J].新发现,2015,0(10):21-21.
3王晓玲,王信军.脊椎动物体色的研究[J].吉林农业科技学院学报,2006,15(1):11-13. 被引量：10
4李兆英.中华蜜蜂中央复合体的结构及胚后发育[J].环境昆虫学报,2012,34(2):161-167.
5李莹,刘剑峰.GABAB受体研究现状[J].现代生物医学进展,2009,9(16):3144-3146. 被引量：6
6占邵颖.慢慢塑造你的脑[J].才智（智慧版）,2015,0(8):70-70.
7芸香.诊断肿瘤,鸽子也要来帮忙?[J].中国科技奖励,2015,0(12):80-80.
8贝念湘,杨红建,李新平,夏晓波,陈千里,魏彬,戴忠,卢江华,刘志强,刘栓,杨志荣,孙玉英.额河银鲫血液生化及血液流变学参数[J].中国兽医学报,1999,19(1):43-45. 被引量：12
9李长江,曾鸣晔.个体行为系统复杂性特征初探[J].科学决策,2009(2):79-84. 被引量：2
10汤燕斌,乐励华.含两时滞捕食-被捕食系统的稳定性及分歧(英文)[J].应用数学,2002,15(4):72-78.

科学技术与工程

2017年第13期

浏览历史

内容加载中请稍等...

鸽子强化学习过程中内部学习状态的动态建模研究被引量：2

参考文献3

二级参考文献25

共引文献268

同被引文献10

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

鸽子强化学习过程中内部学习状态的动态建模研究 被引量：2

参考文献3

二级参考文献25

共引文献268

同被引文献10

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

鸽子强化学习过程中内部学习状态的动态建模研究被引量：2