-
题名基于三元多臂赌博机的树结构最优动作识别
- 1
-
-
作者
刘郭庆
王婕婷
胡治国
钱宇华
-
机构
山西大学大数据科学与产业研究院
计算机智能与中文信息处理教育部重点实验室(山西大学)
山西大学计算机与信息技术学院
-
出处
《计算机应用》
CSCD
北大核心
2019年第8期2252-2260,共9页
-
基金
国家自然科学基金资助项目(61672332,61432011,U1435212)
山西省自然科学基金资助项目(201701D121052)~~
-
文摘
蒙特卡罗树搜索(MCTS)在棋类博弈问题中展现出卓越的性能,但目前多数研究仅考虑胜负两种反馈从而假设博弈结果服从伯努利分布,然而这种设定忽略了常出现的平局结果,导致不能准确地评估盘面状态甚至错失最优动作。针对这个问题,首先构建了基于三元分布的多臂赌博机(TMAB)模型并提出了最优臂确认算法TBBA;然后,将TBBA算法应用到三元极大极小采样树(TMST)中,提出了简单迭代TBBA算法的TBBA_tree算法和通过将树结构转化成TMAB的三元极大极小采样树TMST最优动作识别(TTBA)算法。在实验部分,建立了两个精度不同的摇臂空间并在其基础上构造了多个具有对比性的TMAB和TMST。实验结果表明,相比均匀采样算法,TBBA算法准确率保持稳步上升且部分能达到100%,TBBA算法准确率基本保持在80%以上且具有良好的泛化性和稳定性,不会出现异常值和波动区间。
-
关键词
蒙特卡罗树搜索
三元多臂赌博机
最优臂确认
序列决策
纯探索
-
Keywords
Monte Carlo Tree Search (MCTS)
Ternary Multi-Arm Bandit (TMAB)
Best Arm Identification (BAI)
sequential decision-making
pure exploration
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-