-
题名满足匹配律的策略参数搜索决策模型
- 1
-
-
作者
程振波
张宇
邓志东
-
机构
清华信息科学与技术国家实验室(筹)智能技术与国家重点实验室清华大学计算机系
浙江工业大学计算机科学与技术学院
-
出处
《中国科学:信息科学》
CSCD
2012年第1期83-98,共16页
-
基金
国家自然科学基金(批准号:61005085
60775040
90820305)资助项目
-
文摘
匹配律是决策理论的基本定律之一,它建立了对备选目标的偏好与所获奖励之间的对应关系.通过构建获得匹配律的策略模型,研究了该定律成立的可能机制.基于再励学习理论,提出了通过调整策略参数以满足决策目标的策略搜索模型.在该策略模型的基础上,通过设定简单的假设条件推导出满足匹配律的策略算法.理论分析和数值仿真结果均验证了算法的正确性.另一方面利用该算法模拟了经典的心理学与神经生理学的匹配行为实验.研究结果不仅对匹配行为给出了合理的解释,也为建立基于奖励的决策模型提供了一种有效的理论建模方法.
-
关键词
策略模型
匹配律
再励学习
决策模型
神经回路
-
Keywords
policy model, matching law, reinforcement learning, decision-making model, neural circuit
-
分类号
O225
[理学—运筹学与控制论]
-