-
题名在线学习方法综述:汤普森抽样和其他方法
被引量:6
- 1
-
-
作者
何斯迈
金羽佳
王华
葛冬冬
-
机构
上海财经大学信息管理与工程学院
复旦大学数学科学学院
上海财经大学交叉科学研究院
-
出处
《运筹学学报》
CSCD
北大核心
2017年第4期84-102,共19页
-
基金
国家自然科学基金(No.11471205)
上海高校特聘教授(东方学者)岗位计划(No.15140002)
+1 种基金
上海财经大学创新团队支持计划(Nos.2014110354
2016110392)
-
文摘
本文尝试对在线学习领域的最新研究成果、相关主要理论和算法进行综述.在线学习的内容非常广博,本文希望能够为读者介绍其中一些基本的算法和想法,从最经典的理论模型和算法设计开始,对在线学习的发展情况作一个一般性的介绍.首先,以经典的在线优化模型——多摇臂赌博机问题为例,引入了汤普森抽样算法和信心上界算法,分析、展示了它们的基本思路和最新成果,并进一步讨论了汤普森抽样算法在更复杂的在线学习问题中的变式和应用.本文同时对在线凸优化算法做了初步探讨,它也是解决多摇臂赌博机问题和其他许多在线学习的应用问题时一种强有力的工具.
-
关键词
在线学习
多摇臂赌博机
汤普森抽样
信心上界算法
情境多摇臂赌博机
在线凸优化
-
Keywords
online learning, multi-armed bandit, Thompson sampling, upper confi-dence bound, contextual multi-armed bandit, online convex optimization
-
分类号
O212.2
[理学—概率论与数理统计]
-