采用时间差分算法的九路围棋机器博弈系统被引量：5

A 9×9 Go computer game system using temporal difference

下载PDF

导出

摘要围棋机器博弈是机器博弈中重要的分支之一,其庞大的博弈空间给机器博弈研究者带来了巨大挑战.目前围棋机器博弈多采用静态估值搜索与蒙特卡洛树搜索,故将时间差分算法引入至九路围棋机器博弈系统中,提出基于时间差分算法的围棋机器博弈系统模型,该博弈系统具有一定的自学习能力,能在不断的对弈中逐步提高博弈能力.通过与采用α-β搜索算法的博弈系统进行实际对弈,证明了该方法的可行性. Computer Go is an important branch of computer games and presents great challenges to computer game researchers due to its need for huge game space.Presently,the static evaluation method and the Monte-Carlo tree search method are widely used in Go computer games.In this paper,a temporal difference algorithm was introduced to the 9×9 Go computer game system which gave it self-learning capability,thereby improving the game levels as a result of the continuous training.Through playing chess with a system which adopts an α-β algorithm,the new method was proven to be effective.

作者张小川唐艳梁宁宁

机构地区重庆理工大学计算机科学与工程学院

出处《智能系统学报》北大核心 2012年第3期278-282,共5页 CAAI Transactions on Intelligent Systems

基金重庆市教委科研项目(KJ120824) 重庆市自然科学基金资助项目(2007BB2415)

关键词机器博弈九路围棋围棋机器博弈时间差分算法 computer game 9×9 Go Go computer game temporal difference

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1张聪品,刘春红,徐久成.博弈树启发式搜索的α-β剪枝技术研究[J].计算机工程与应用,2008,44(16):54-55. 被引量：6
2刘知青,李文峰.现代计算机围棋基础[M].北京:北京邮电大学出版社,2011:63-80.
3GELLY S, WANG Yizao, MUNOS R, ct al. Modification of UCT with patterns in Monte-Carlo Go [ R/OL ]. [ 2011-10- 15 ]. http://219. 142.86.87/paper/RR-6062. pdf.
4GELLY S, WANG Yizao. Exploration exploitation in Go: UCT for Monte-Carlo Go[ C/OL]. [2011-10-151- http:// wenku, baidu, com/view/66c2edd6b9t3f90i76c61bcO, html.
5张汝波,周宁,顾国昌,张国印.基于强化学习的智能机器人避碰方法研究[J].机器人,1999,21(3):204-209. 被引量：23
6沈晶,顾国昌,刘海波.基于免疫聚类的自动分层强化学习方法研究[J].哈尔滨工程大学学报,2007,28(4):423-428. 被引量：2
7BAE J, CHHATBAR P, FRANCIS J T, et al. Reinforce- ment learning via kernel temporal difference [ C ]//Proceed- ings of the Annual International Conference of the IEEE En- gineering in Medicine and Biology Society. Boston, USA, 2011 : 5662-5665.
8SUTFON R S. Learning to predict by the methods of tempo- ral difference[ J ]. Machine Learning, 1988, 3 ( 1 ) : 9-44.
9KAELBLING L P, LITIMAN M L, MOORE A W. Rein- forcement learning: a survey[ J ]. Journal of Artificial Intel- ligence Research, 1996, 4 : 237-285.
10阿培丁.机器学习导论[M].北京:机械工业出版社,2009.

二级参考文献34

1王骄,王涛,罗艳红,徐心和.中国象棋计算机博弈系统评估函数的自适应遗传算法实现[J].东北大学学报（自然科学版）,2005,26(10):949-952. 被引量：16
2Cohen P R,Feigenbaum E A.The handbook of artifical intelligenee[M].New Jersey : Addision Wesley, 1982:45-80.
3Clancy W J.Heuristic classification[J].Artificial Intelligence,1985,27: 289-350.
4Luger G F.Artifieal intelligence structures and strategies for complex problem solving [M].5th ed.Beijing:China Machine Press, 2006:110-118.
5Sutton R S.Learning to Predict by the Method of Temporal Differences[J].Machine Learning,1988,3(1):9-44.
6Autonès M,Beck A,et al.Evaluation of Chess Position by Modular Neural Network Generated by Genetic Algorithm[J].Genetic Programming,2004,3003:1-10.
7Schaeffer J,Burch N,Bjornsson Y,et al.Checkers Is Solved[J].Science,2007,317(5844):1518-1522.
8Wu I-Chen,Huang Dei-Yen.A New Family of k-in-a-row Games[C] ∥Proceedings of The 11th Advances in Computer Games Conference.2005:88-100.
9Xu Chang-ming,Ma Z M,Xu Xin-he.A Method to Construct Knowledge Table-base in k-in-a-row Games[C] ∥Proceedings of ACM Symposium on Applied Computing.2009:929-933.
10Baxter J,Tridgell A,Weaver L.KnightCap:A Chess Program that Learns by Combining TD(λ) with Game-Tree Search[C] ∥Proceedings of the 15th International Conference on Machine Learning.Madison,1998:28-36.

共引文献36

1刘建兴.一种仓库搬运机器人分类入库系统的设计[J].广西农业机械化,2019,0(4):21-22.
2石鸿雁,孙茂相,孙昌志.未知环境下移动机器人路径规划方法[J].沈阳工业大学学报,2005,27(1):63-69. 被引量：10
3张培艳,吕恬生.基于增强学习的关节型机器人动态操作任务运动规划[J].系统仿真学报,2006,18(9):2537-2540.
4黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
5赵晓华,石建军,李振龙,赵国勇.基于Q-learning和BP神经元网络的交叉口信号灯控制[J].公路交通科技,2007,24(7):99-102. 被引量：9
6程晓北,沈晶,刘海波,顾国昌,张国印.分层强化学习研究进展[J].计算机工程与应用,2008,44(13):1-5. 被引量：1
7赵晓华,李振龙,陈阳舟,荣建.Q学习中基于模糊规则的强化函数设计方法[J].模式识别与人工智能,2008,21(2):254-259.
8齐勇,魏志强,殷波,费云瑞,于忠达,庄晓东.增强蚁群算法的机器人最优路径规划[J].哈尔滨工业大学学报,2009,41(3):130-133. 被引量：8
9王晓媛,高会生,金鑫,许玲玲.基于证据网络推理的SDH设备可靠性分析[J].电力系统通信,2010,31(10):25-29. 被引量：1
10唐平,杨宜民.多智能体协调系统的研究及实现方法[J].现代计算机,1999,5(11):28-30.

同被引文献63

1王飞跃,王艳芬,陈薏竹,田永林,齐红威,王晓,张卫山,张俊,袁勇.联邦生态:从联邦数据到联邦智能[J].智能科学与技术学报,2020,2(4):305-311. 被引量：31
2王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：234
3何大华,陈传波.关于桥牌的取胜策略[J].华中科技大学学报（自然科学版）,2004,32(7):13-15. 被引量：6
4王骄,王涛,罗艳红,徐心和.中国象棋计算机博弈系统评估函数的自适应遗传算法实现[J].东北大学学报（自然科学版）,2005,26(10):949-952. 被引量：16
5徐心和,王骄.中国象棋计算机博弈关键技术分析[J].小型微型计算机系统,2006,27(6):961-969. 被引量：61
6徐长明,南晓斐,王骄,徐心和.中国象棋机器博弈的时间自适应分配策略研究[J].智能系统学报,2006,1(2):39-43. 被引量：2
7魏钦刚,王骄,徐心和,南晓斐.中国象棋计算机博弈开局库研究与设计[J].智能系统学报,2007,2(1):85-89. 被引量：5
8LIU Zhi-qing,DOU Qing.Automatic pattern acquisition from game records in GO[J].The Journal of China Universities of Posts and Telecommunications,2007,14(1):100-105. 被引量：1
9LIU Zhi-qing,DOU Qing,LI Wen-hong,LU Ben-jie.Automatic acquisition of pattern collocations in GO[J].The Journal of China Universities of Posts and Telecommunications,2008,15(1):61-67. 被引量：1
10徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：41

引证文献5

1王亚杰,邱虹坤,吴燕燕,李飞,杨周凤.计算机博弈的研究与发展[J].智能系统学报,2016,11(6):788-798. 被引量：30
2陈鹏,王子磊.融合深度学习与搜索的实时策略游戏微操方法[J].计算机工程,2020,46(6):50-59.
3陈雪健,张利群,曹杨.实现不围棋博弈程序的一种策略及关键算法[J].现代计算机,2020,26(22):9-13.
4李亚玲,杨林瑶,葛俊,覃缘琪,王晓.博弈5.0:基于平行系统和机器博弈的社会认知平行博弈[J].智能科学与技术学报,2021,3(4):507-520. 被引量：3
5李霞丽,陈彦东,杨子熠,张焱垠,吴立成.藏族久棋的一种两阶段计算机博弈算法[J].重庆理工大学学报（自然科学）,2022,36(12):110-120. 被引量：3

二级引证文献36

1王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：3
2焦连庆,于敏,黄青,张志伟,何亚全.TAME法测定金龙消栓合剂中吲激酶单位效价[J].中草药,2000,31(4):267-268. 被引量：3
3孙若莹,宫义山,赵刚.一种新的博弈树迭代向前剪枝搜索[J].沈阳工业大学学报,2017,39(3):304-310. 被引量：2
4杜云静.计算机科学与技术的现代化运用[J].学周刊,2017(25):149-150. 被引量：3
5梅险,侯利元,谢文,高旭,孙伟,李冬平.计算机博弈创新教育的研究与实践[J].黑龙江教育（理论与实践）,2017(12):45-46. 被引量：1
6陈维维.多元智能视域中的人工智能技术发展及教育应用[J].电化教育研究,2018,39(7):12-19. 被引量：50
7张小川,李琴,南海,彭丽蓉.改进UCT算法在爱恩斯坦棋中的应用[J].计算机科学,2018,45(12):196-200. 被引量：8
8高昂,段莉,张国辉,董志明,曹洁,郭齐胜.计算机生成兵力行为建模发展现状[J].计算机工程与应用,2019,55(19):43-51. 被引量：4
9张小川,王宛宛,彭丽蓉.一种军棋机器博弈的多棋子协同博弈方法[J].智能系统学报,2020,15(2):399-404. 被引量：5
10邢志伟,李彪,马浩然,戴铮.航班地面保障过程动态控制方法研究[J].计算机仿真,2020,37(7):78-83. 被引量：3

1穆翔,刘全,傅启明,孙洪坤,周鑫.基于两层模糊划分的时间差分算法[J].通信学报,2013,34(10):92-99. 被引量：1
2徐郡,储方杰.基于时序的神经网络在高炉炉温预测模型中的应用[J].冶金自动化,2003,27(3):69-69. 被引量：1
3刘全,于俊,王辉,傅启明,朱斐.一种基于随机投影的贝叶斯时间差分算法[J].电子学报,2016,44(11):2752-2757. 被引量：1
4徐郡,储方杰.基于BP网时间差分算法的设计与应用[J].系统仿真学报,2003,15(10):1443-1445. 被引量：1
5张斌,徐艳群.自适应遗传算法在象棋博弈系统中的应用[J].电脑编程技巧与维护,2012(16):122-123.
6栾咏红,章鹏.强化学习方法的对比分析[J].计算机时代,2015(12):93-97. 被引量：2
7吕艳辉,宫瑞敏.计算机博弈中估值算法与博弈训练的研究[J].计算机工程,2012,38(11):163-166. 被引量：9
8张恩海,李彦平,朱俊威.中国象棋多自动机复合模型及其估值方法研究[J].沈阳大学学报,2011,23(2):7-11.
9曹慧芳,刘知青.基于WinCE应用程序的围棋游戏开发[J].软件,2011,32(1):79-82. 被引量：1
10杨旭然.阿尔法狗背后的天才[J].英才,2017,0(3):62-63.

智能系统学报

2012年第3期

浏览历史

内容加载中请稍等...

采用时间差分算法的九路围棋机器博弈系统被引量：5

参考文献13

二级参考文献34

共引文献36

同被引文献63

引证文献5

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

采用时间差分算法的九路围棋机器博弈系统 被引量：5

参考文献13

二级参考文献34

共引文献36

同被引文献63

引证文献5

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

采用时间差分算法的九路围棋机器博弈系统被引量：5