在线核选择的对抗式多臂赌博机模型被引量：2

Adversarial Multi-armed Bandit Model with Online Kernel Selection

下载PDF

导出

摘要在线核选择是在线核方法的重要工作,可分为过滤式、包裹式和嵌入式3种类型。已有在线核选择探索了包裹式方法和嵌入式方法,也经验地采用了过滤式方法,但迄今尚没有一个统一的框架来比较、分析并研究各种在线核选择问题。文中提出一种在线核选择的多臂赌博机模型,该模型可作为一个统一框架,同时给出在线核选择的包裹式方法和嵌入式方法。给定候选核集合,候选集中的一个核对应多臂赌博机模型中的一个臂,在线核选择的每回合依据一个概率分布重复地随机选择多个核,并应用指数加权的方法来更新该概率分布。这样,在线核选择问题本质上可归约为一个非遗忘对手环境下的对抗式多臂赌博机问题,并可应用对抗式多臂赌博机模型统一地给出在线核选择的包裹式方法和嵌入式方法。文中进一步提出一个新的在线核选择后悔的概念,理论证明包裹式方法具有关于回合数亚线性的弱期望后悔界,并且嵌入式方法具有关于回合数亚线性的期望后悔界。最后,在标准数据集上通过实验验证了所提统一框架的可行性。 Online kernel selection is an important component of online kernel methods,and it can be classified into three categories,that is,the filter,the wrapper and the embedder.Existing online kernel selection explores the wrapper and the embedder categories,and empirically adopts the filter approach.But there have been no unified frameworks yet for comparing,analyzing and investigating online kernel selection problems.This paper proposed a unified framework for online kernel selection researches via multi-armed bandits,which can model the wrapper and the embedder of online kernel selection simultaneously.Giving a set of candidate kernels,this paper corresponds each kernel to an arm in an adversarial bandit model.At each round of online kernel selection,this paper randomly chose multiple kernels according to a probability distribution,and updated the probability distribution via the exponentially weighted average method.In this way,an online kernel selection problem was reduced to an adversarial bandit problem in a non-oblivious adversary setting,and a unified framework was developed for online kernel selection researches,which can model the wrapper and the embedder uniformly.This paper further defined a new regret concept of online kernel selection,and proved that the wrapper within the framework enjoys a sub-linear weak expected regret bound and the embedder within the framework enjoys a sub-linear expected regret bound.Experimental results on benchmark datasets demonstrate the effectiveness of the proposed unified framework.

作者李峻樊廖士中 LI Jun-fan;LIAO Shi-zhong(College of Intelligence and Computing,Tianjin University,Tianjin 300350,China)

机构地区天津大学智能与计算学部

出处《计算机科学》 CSCD 北大核心 2019年第1期57-63,共7页 Computer Science

基金国家自然科学基金项目(61673293)资助

关键词在线核选择对抗式多臂赌博机非遗忘对手统一框架 Online kernel selection Adversarial multi-armed bandit Non-oblivious adversary Unified framework

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献12

1何健,文晓涛,聂文亮,李雷豪,杨吉鑫.利用随机森林算法预测裂缝发育带[J].石油地球物理勘探,2020,55(1):161-166. 被引量：7
2王程博,张新宇,邹志强,王少博.基于Q-Learning的无人驾驶船舶路径规划[J].船海工程,2018,47(5):168-171. 被引量：23
3章晓芳,周倩,梁斌,徐进.一种自适应的多臂赌博机算法[J].计算机研究与发展,2019,56(3):643-654. 被引量：9
4石静,郑嘉利,袁源,王哲,李丽.基于Whittle索引的RFID多阅读器信道资源分配算法[J].计算机科学,2019,46(10):122-127. 被引量：5
5封佳祥,江坤颐,周彬,袁志豪.多任务约束条件下基于强化学习的水面无人艇路径规划算法[J].舰船科学技术,2019,41(23):140-146. 被引量：6
6胡学敏,成煜,陈国文,张若晗,童秀迟.基于深度时空Q网络的定向导航自动驾驶运动规划[J].计算机应用,2020,40(7):1919-1925. 被引量：3
7毛国君,顾世民.改进的Q-Learning算法及其在路径规划中的应用[J].太原理工大学学报,2021,52(1):91-97. 被引量：19
8陈珂.基于多臂赌博机算法的推荐系统研究[J].长江信息通信,2021(3):43-46. 被引量：1
9杨午阳,杨佳润,陈双全,匡丽琴,王恩利,周春雷.基于U-Net深度学习网络的地震数据断层检测[J].石油地球物理勘探,2021,56(4):688-697. 被引量：28
10周彬,郭艳,李宁,钟锡健.基于导向强化Q学习的无人机路径规划[J].航空学报,2021,42(9):498-505. 被引量：28

引证文献2

1林宝玲,贾日恒,林飞龙,郑忠龙,李明禄.基于预算时变的多臂赌博机模型[J].计算机科学,2022,49(S02):175-180. 被引量：1
2崔焘,张昊楠,阮福明,崔世峰,张少鹏.基于强化Q学习的海上地震勘探航线自动规划方法[J].电子技术应用,2023,49(11):105-110.

二级引证文献1

1赵阳,董芳,周雨虹,周毅超,彭亮,韩龙哲,王文丰.基于上下文人工蜂群的模糊C均值聚类算法[J].南昌工程学院学报,2023,42(4):73-78.

1杨仕福.刑事交叉询问制度实证研究[J].青海检察,2018,0(2):35-41.
2张涛,张猛,蒋培培.基于空间连续生成对抗网络的视频帧间图像生成[J].高技术通讯,2018,28(9):843-851. 被引量：1
3我的4K之选[J].数字家庭,2018,0(10):6-6.
4杨东风.高职院校跆拳道教学学生损伤现象研究[J].文体用品与科技,2019,0(3):198-199.
5田伟.高质量发展背景下关于我国流通产业升级的思考[J].商业经济研究,2019(2):13-15. 被引量：14
6高通.美国陪审团事实认知机制研究[J].比较法研究,2018,32(6):152-168. 被引量：5
7张杨波.代际冲突与合作——幼儿家庭照料类型探析[J].学术论坛,2018,41(5):125-133. 被引量：40
8闫小勇,李青.融合特征降维和密度峰值的二进制协议数据帧聚类算法[J].小型微型计算机系统,2018,39(12):2662-2668.
9乔梁,谢冬青.基于类不平衡学习的蛋白质与金属离子交互位点预测[J].南京理工大学学报,2018,42(6):707-715. 被引量：1
10莫纪宏.论法律的合宪性审查机制[J].法学评论,2018,36(6):29-35. 被引量：19

计算机科学

2019年第1期

浏览历史

内容加载中请稍等...

在线核选择的对抗式多臂赌博机模型被引量：2

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

在线核选择的对抗式多臂赌博机模型 被引量：2

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

在线核选择的对抗式多臂赌博机模型被引量：2