一种基于Q学习的有限理性博弈模型及其应用被引量：2

A Limited Rational Game Model Based on Q-learning and Its Application

下载PDF

导出

摘要传统博弈理论模型建立在人的完全理性基础之上,难以切合实际。有限理性博弈则能够很好地描述实际问题。有限理性的博弈者参与到不完全信息博弈中,对博弈的规则、结构以及对手等博弈信息有一个逐渐适应和了解的过程,因此博弈应是动态进化的模型。针对这一问题,提出了一种基于Q学习算法的不完全信息博弈模型,根据Littman的最大最小原则建立了多指标体系下的策略选择概率分布;构建了Q学习与博弈融合的数学模型,使用Q学习机制来实现博弈模型的动态进化;最后将模型应用于两人追逐的仿真实验,结果表明所提出的模型能够很好地再现追逐情景。 The conventional game theory model is constructed based on human＇s perfect rational,which does not accord with the reality,while limited rational game can describe the real problems. The limited rational players participated in the imperfect information game will gradually learn and adapt to the game information such as the game rules,game model structure and opponent,etc. Thus the game is a dynamic evolutional model. Aiming to this problem,an imperfect information game model based on Q-learning algorithm is proposed. The strategy choice probability distributions of multiple indexes are calculated according to the Littman Max-min principle,and the mathematic model of game combined with Qlearning is constructed,in which the dynamic evolution of game model is implemented through Qlearning algorithm. Finally,the proposed model is applied to the pursuing simulation test. Simulation results show that the proposed model can excellently reflect the pursuing situation.

作者陈荣钦林君焕陈月芬

机构地区台州学院数学与信息工程学院台州职业技术学院机电学院台州学院物理与电子工程学院

出处《系统仿真技术》 2014年第3期203-210,共8页 System Simulation Technology

基金浙江省自然科学基金资助项目(LY14F020036) 台州学院青年基金资助项目(2012QN09)

关键词 Q学习有限理性博弈追逐多指标收益 Q-learning limited rational game pursuing multiple indexes pay-off

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1Rajneesh Sharma,M. Gopal.Synergizing reinforcement learning and game theory—A new direction for control[J].Applied Soft Computing Journal.2009(3)
2马骁,王轩,王晓龙.一类非完备信息博弈的信息模型[J].计算机研究与发展,2010,47(12):2100-2109. 被引量：5

二级参考文献19

1冀俊忠,刘椿年,阎静.一种快速的贝叶斯网结构学习算法[J].计算机研究与发展,2007,44(3):412-419. 被引量：9
2van den Herik H Jaap,Uiterwijk Jos W H M,van Rijswijck Jack.Games solved:Now and in the future[J].Artificial Intelligence,2001,134:277-311.
3Schaeffer J.A gamut of games[J].AI Magazine,2001,22(3):29-46.
4Ginsberg M L.GIB:Imperfect information in a computationally challenging game[J].Journal of Artificial Intelligence Research (JAIR),2001,14:303-358.
5Billings D,Burch N,et al.Approximating game-theoretic optimal strategies for full-scale poker[C]//Proc of IJCAI-03.San Francisco:Morgan Kaufmann,2003.
6Parker A,Nau D,Subrahmanian V S.Game-tree search with combinatorially large belief states[C]//Proc of IJCAI-05.Denver:Professional Book Center,2005.
7Xia Z Y,Hu Y,Wang J,et al.Analyze and guess type of piece in the computer game intelligent system[G]//LNCS 3614:Fuzzy Systems and Knowledge Discovery,Second Int Conf (FSKD 2005).Berlin:Springer,2005:1174-1183.
8王轩,许朝阳.时序差分学习在非完备信息机器博弈中的应用[C]//2007中国机器博弈学术研讨会.重庆:中国人工智能学会,2007:55-58.
9Xia Z Y,Zhu Y,Lu H.Evaluation function for Siguo game based on two attitudes[C]//LNCS 4223:Proc of the 3rd Int Conf on Fuzzy Systems and Knowledge Discovery.Berlin:Springer,2006:1322-1331.
10Lu Hui,Xia Zhengyou.Aspiration with timer search algorithm in Siguo[C]//Proc of the 6th Int Conf on Computers and Games.Berlin:Springer,2008:264-274.

共引文献4

1徐涛,赵慧伟,吕宗磊.多人不完备信息博弈的一种解法及改进[J].武汉大学学报（工学版）,2011,44(6):792-796.
2张加佳,王轩.机器博弈风险分析及其估算方法的研究[J].高技术通讯,2013,23(9):965-972. 被引量：1
3王亚杰,邱虹坤,吴燕燕,李飞,杨周凤.计算机博弈的研究与发展[J].智能系统学报,2016,11(6):788-798. 被引量：30
4吴立成,吴启飞,钟宏鸣,王世尧,李霞丽.基于卷积神经网络的“拱猪”博弈算法[J].智能系统学报,2023,18(4):775-782.

同被引文献21

1陈宽民,罗小强.城市快速轨道交通合理票价的博弈分析[J].长安大学学报（自然科学版）,2005,25(4):52-55. 被引量：36
2刘惠玲,关伟.基于系统动力学的城市公交系统模型[J].城市公共交通,2007(6):24-27. 被引量：3
3杨友林,伦淑娴.基于模糊理论的CSCL分组的研究[J].渤海大学学报（自然科学版）,2009,30(2):181-184. 被引量：2
4拓守恒.基于QPSO训练的SVM核函数集成学习研究[J].系统仿真技术,2010,6(3):202-208. 被引量：5
5唐旭南,张秀媛,孙浩.城市常规公交子系统能耗模型研究[J].交通运输系统工程与信息,2012,12(1):160-165. 被引量：4
6张舸,周东岱,葛情情.自适应学习系统中学习者特征模型及建模方法述评[J].现代教育技术,2012,22(5):77-82. 被引量：25
7孙广林,王健,姜成福.城市公交价格联动策略的演化博弈[J].交通运输系统工程与信息,2013,13(4):164-170. 被引量：6
8姜蔺,韩锡斌,程建钢.MOOCs学习者特征及学习效果分析研究[J].中国电化教育,2013(11):54-59. 被引量：206
9富震.基于SVM主动学习技术的PU文本分类[J].计算技术与自动化,2014,33(1):127-131. 被引量：4
10宋成举,张亚平,姜莉.城市公共交通系统发展策略的系统动力学建模与仿真[J].黑龙江工程学院学报,2014,28(1):15-19. 被引量：6

引证文献2

1张亚平,宋成举,程绍武,郑柯.城市公共交通监管博弈建模与仿真[J].哈尔滨工业大学学报,2016,48(9):24-29. 被引量：4
2李艳,屈正庚.基于层次分析法的学习者特征分析[J].系统仿真技术,2018,14(1):25-29. 被引量：5

二级引证文献9

1谢鹏燕,苏贵影,宋永平.博弈论视角下城市交通拥堵对策分析[J].物流科技,2017,40(8):89-91.
2李新平,瞿江文,唐结齐,蒲青松,夏新兵,徐坤.基于组合赋权法-TOPSIS法的北天山隧道突水风险评价研究[J].水利水电技术,2019,50(9):114-119. 被引量：12
3梁捷.基于AHP+熵权法的负荷管理终端软件质量评估[J].内蒙古电力技术,2019,37(5):42-46. 被引量：1
4秦军,袁晓时.基于SD模型的环境会计信息披露演化博弈分析[J].科学与管理,2020,40(2):28-38. 被引量：1
5王蒙蒙,徐久成.基于在线学习行为数据的学习者群体特征挖掘研究[J].软件导刊,2020,19(7):153-157. 被引量：7
6李姣姣,周雨青,董科,张志红,王佳宁.参与式学习教学实践的模拟设计与分析——以拟建金课“大学物理”为例[J].大学物理,2020,39(12):41-49. 被引量：8
7刘晓娟.“扎染”课程疫情期间线上教学模式实践探索[J].美与时代（创意）（上）,2020(11):122-124.
8牟玲玲,涂家婷,付一帆.交通部门监管与交通参与人违法占用应急车道行为演化博弈分析[J].北京交通大学学报（社会科学版）,2022,21(4):76-86.
9崔素萍.运动延误下城市交通轨道多站协同客流控制模型研究[J].科技通报,2019,35(2):201-204. 被引量：2

1杨欣欣,李培峰,朱巧明,王英帅.一种基于改进的K-means算法的人名消歧系统的设计与实现[J].计算机与数字工程,2010,38(8):10-12. 被引量：5
2李媛媛,孙玉强,晁亚,刘阳.云环境下的高效K-Medoids并行算法[J].计算机测量与控制,2016,24(12):139-142. 被引量：2
3何云华,孙利民,杨卫东,李红.基于博弈分析的众包交通监测隐私保护机制[J].电子与信息学报,2016,38(2):340-346. 被引量：6
4崔海霞,韦岗.基于贝叶斯网络的博弈融合建模[J].传感器与微系统,2009,28(2):60-62. 被引量：1
5林晓鹏,郭东辉.基于有限理性网格资源分配方法的研究[J].电信科学,2010,26(5):55-60.
6史晓茹,侯媛彬,张涛.不完全信息博弈的机器人对抗决策[J].智能系统学报,2011,6(2):147-151. 被引量：7
7王浩云,张顺颐,赵振东,马燕玲.基于不完全信息博弈的P2P网络节点行为策略模型[J].应用科学学报,2008,26(5):448-454. 被引量：2
8孙涛,戴伟辉.动态进化导向的系统分析与设计[J].计算机工程与应用,2006,42(10):28-30.
9张凤,孙哲,孟彬.一种基于特征点的移动机器人路径规划算法[J].沈阳建筑大学学报（自然科学版）,2009,25(6):1212-1216. 被引量：3
10王清华,曾建潮.求解方程组的控制微粒群算法[J].计算机工程与应用,2007,43(12):45-47. 被引量：1

系统仿真技术

2014年第3期

浏览历史

内容加载中请稍等...

一种基于Q学习的有限理性博弈模型及其应用被引量：2

参考文献2

二级参考文献19

共引文献4

同被引文献21

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于Q学习的有限理性博弈模型及其应用 被引量：2

参考文献2

二级参考文献19

共引文献4

同被引文献21

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于Q学习的有限理性博弈模型及其应用被引量：2