一种自适应的多臂赌博机算法被引量：9

An Adaptive Algorithm in Multi-Armed Bandit Problem

下载PDF

导出

摘要多臂赌博机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂赌博机问题是最经典的一类多臂赌博机问题,是众多新型多臂赌博机问题的基础.针对现有多臂赌博机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂赌博机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂赌博机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力. As an important ongoing field in machine learning,reinforcement learning has received extensive attention in recent years. The multi-armed bandit (MAB) problem is a typical problem of the exploration and exploitation dilemma in reinforcement learning. As a classical MAB problem,the stochastic multi-armed bandit (SMAB) problem is the base of many new MAB problems. To solve the problems of insufficient use of information and poor generalization ability in existing MAB methods,this paper presents an adaptive SMAB algorithm to balance exploration and exploitation based on the chosen number of arm with minimal estimation,namely CNAME in short. CNAME makes use of the chosen times and the estimations of an action at the same time,so that an action is chosen according to the exploration probability,which is updated adaptively. In order to control the decline rate of exploration probability,the parameter w is introduced to adjust the influence degree of feedback during the selection process. Furthermore,CNAME does not depend on contextual information,hence it has better generalization ability. The upper bound of CNAME s regret is theoretically proved and analyzed. Our experimental results in different scenarios show that CNAME can yield greater reward and smaller regret with high efficiency than commonly used methods. In addition,its generalization ability is very strong.

作者章晓芳周倩梁斌徐进 Zhang Xiaofang;Zhou Qian;Liang Bin;Xu Jin(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006;State Key Laboratory for Novel Software Technology (Nanjing University),Nanjing 210023)

机构地区苏州大学计算机科学与技术学院计算机软件新技术国家重点实验室(南京大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2019年第3期643-654,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61772263 61772014 61572375) 苏州市科技发展计划基金项目(SYG201807)~~

关键词强化学习多臂赌博机探索和利用自适应上下文相关 reinforcement learning multi-armed bandit exploration and exploitation adaptation contextual

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
2赵凤飞,覃征.一种多动机强化学习框架[J].计算机研究与发展,2013,50(2):240-247. 被引量：6
3刘全,傅启明,杨旭东,荆玲,李瑾,李娇.一种基于智能调度的可扩展并行强化学习方法[J].计算机研究与发展,2013,50(4):843-851. 被引量：3
4刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：38
5成石,王宝亮,毛陆虹,常鹏.融合矩阵分解的多臂赌博机推荐算法[J].小型微型计算机系统,2017,38(12):2754-2758. 被引量：4
6余永红,高阳,王皓,孙栓柱.融合用户社会地位和矩阵分解的推荐算法[J].计算机研究与发展,2018,55(1):113-124. 被引量：32

二级参考文献76

1Puterman M L.Markov Decision Process:Discrete Dynamic Dtochastic Programming.New-York:Wiley,1994
2Kaya M,Alhajj R.Fuzzy olap association rules mining based modular reinforcement learning approach for multiagent systems.IEEE Transactions on Systems,Man and Cybernetics part B:Cybernetics,2005,35(2):326-338
3Singh S,Bertsekas D.Reinforcement learning for dynamic channel allocation in cellular telephone systems//Mozer M C,Jordan M L,Petsche T.Proceedings of the NIPS-9.Cambridge MA:MIT Press,1997:974
4Vengerov D N,Berenji H R.A fuzzy reinforcement learning approach to power control in wireless transmitters.IEEE Transactions on Systems,Man,and Cybernetics part B:Cybernetics,2005,35(4):768-778
5Critesl R H,Barto A G.Elevator group control using multiple reinforcement learning Agents.Machine Learning,1998,33(2/3):235-262
6Kaelbling L P,Littman M L,Moore A P.Reinforcement learning:A survey.Journal of Artificial Intelligence Research,1996,4:237-285
7Sutton R S,Barto A G.Reinforcement Learning:An Introduction.Cambridge MA:MIT Press,1998
8Schwartz A.A reinforcement learning method for maximizing undiscounted rewards//Huns M N,Singh M P eds.Proceedings of the 10th Annual Conference on Machine Learning.San Francisco:Morgan Kaufmann,1993:298-305
9Tadepalli P,Ok D.Model-based average reward reinforcement learning.Artificial Intelligence,1998,100(1/2):177-224
10Gosavi A.Reinforcement learning for long run average cost.European Journal of Operational Research,2004,155 (3):654-674

共引文献113

1朱新乐.基于BP神经网络的绿色供应链优化研究[J].运输经理世界,2023(11):156-158.
2Di Cao,Weihao Hu,Junbo Zhao,Guozhou Zhang,Bin Zhang,Zhou Liu,Zhe Chen,Frede Blaabjerg.Reinforcement Learning and Its Applications in Modern Power and Energy Systems: A Review[J].Journal of Modern Power Systems and Clean Energy,2020,8(6):1029-1042. 被引量：27
3宫园园,艾宏志.Hadoop平台的民俗文化旅游资源推荐系统[J].科技通报,2021(2):62-66. 被引量：6
4杨金鸿,谭斌,皇甫立,熊璋.一种基于联合神经网络的连续空间行动者评论家学习方法[J].智能安全,2022,1(2):19-25.
5李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
6张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
7王巍巍,陈兴国,高阳.一种结合Tile Coding的平均奖赏强化学习算法[J].模式识别与人工智能,2008,21(4):446-452.
8王冠军,王茂励,赵莹.基于马尔可夫决策模型的测试向量排序新方法[J].计算机科学,2010,37(5):287-290. 被引量：1
9付燕宁,张家臣,刘磊.面向预定义过程的强化学习WS组合[J].吉林大学学报（工学版）,2010,40(5):1313-1317.
10刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15

同被引文献68

1车树良,张洪欣.宽带电力线通信系统的电磁干扰评估[J].世界科技研究与发展,2009,31(4):658-660. 被引量：1
2吴湖,王永吉,王哲,王秀利,杜栓柱.两阶段联合聚类协同过滤算法[J].软件学报,2010,21(5):1042-1054. 被引量：83
3杨阳,向阳,熊磊.基于矩阵分解与用户近邻模型的协同过滤推荐算法[J].计算机应用,2012,32(2):395-398. 被引量：51
4王宏,林丹,李敏强.求解带有时间窗和提前/拖期惩罚的飞机着陆问题的遗传算法[J].运筹学学报,2012,16(1):67-76. 被引量：4
5陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报,2013,36(2):349-359. 被引量：125
6王万良,范丽霞,徐新黎,赵燕伟,张静.多目标差分进化算法求解柔性作业车间批量调度问题[J].计算机集成制造系统,2013,19(10):2481-2492. 被引量：19
7邓晓懿,金淳,韩庆平,樋口良之.基于情境聚类和用户评级的协同过滤推荐模型[J].系统工程理论与实践,2013,33(11):2945-2953. 被引量：53
8石鑫,朱永利.面向输电线路监测的无线传输网络QoS保障技术研究[J].中国电力,2015,48(3):39-43. 被引量：15
9王薇,贾素梅.基于WSN的配电网数据采集系统的研究与设计[J].电源技术,2015,39(4):834-835. 被引量：3
10李兰英,刘昌东.一种无线传感器网络路由协议LEACH的改进算法[J].哈尔滨理工大学学报,2015,20(2):75-79. 被引量：17

引证文献9

1林宝玲,贾日恒,林飞龙,郑忠龙,李明禄.基于预算时变的多臂赌博机模型[J].计算机科学,2022,49(S02):175-180. 被引量：1
2周敏,王少尉.频谱感知次序的在线最优选择[J].国防科技大学学报,2020,42(4):24-29.
3敖天宇,刘全.一种快速收敛的最大置信上界探索方法[J].计算机科学,2022,49(1):298-305.
4李毅超,纪春华,尚立,魏勇,李建岐.面向地下电力管廊监测的无线自组网中继覆盖增强技术[J].电力信息与通信技术,2022,20(6):82-88. 被引量：6
5何羽丰,徐建民,张彬.融合用户聚类与Bandits算法的微博推荐模型[J].小型微型计算机系统,2022,43(10):2122-2130.
6吴秀丽,张雅琦.学习型混合差分进化算法优化月台调度问题[J].计算机集成制造系统,2022,28(11):3464-3478. 被引量：1
7曾俊杰,秦龙,徐浩添,张琪,胡越,尹全军.基于内在动机的深度强化学习探索方法综述[J].计算机研究与发展,2023,60(10):2359-2382. 被引量：1
8杨会峰,魏勇,尚立,刘玮,李建岐,张孙烜.支撑配电网监测的无线传感网自适应中继选择[J].哈尔滨理工大学学报,2023,28(3):88-97.
9亢中苗,吴赞红,张珮明,黄东海,包宇奔,卢文冰,张孙烜.基于SDN弹性光网络的电力通信网智能业务编排方法[J].哈尔滨理工大学学报,2024,29(3):99-106.

二级引证文献9

1段钧宝,朱思成,李秉毅,徐鑫,马开志,张孙烜,李思峰.输配电5G卫星融合组网数据卸载方法[J].电子技术应用,2022,48(12):15-21. 被引量：1
2刘海龙,赵记,周良绩,侯强.风电场智能钥匙安全管控系统的研发与应用[J].电子技术应用,2023,49(3):89-94.
3黄崧,孟祥忠.一种含光伏发电的煤矿配电网故障定位方法[J].自动化与仪表,2023,38(4):10-14. 被引量：1
4朱校汲,翟明岳,卢文冰.基于软件定义网络的5G电力通信网业务编排自主决策方法[J].全球能源互联网,2023,6(3):289-296.
5赵阳,董芳,周雨虹,周毅超,彭亮,韩龙哲,王文丰.基于上下文人工蜂群的模糊C均值聚类算法[J].南昌工程学院学报,2023,42(4):73-78.
6陈亮,苏晓,惠炜.电力管廊送排风成套装置自动化控制技术[J].自动化应用,2024,65(1):66-67.
7陈思笛,蔡钢伟.时空大数据下城市建筑空间规划寻优仿真[J].计算机仿真,2024,41(4):310-313.
8梁云杰,邢翱,袁明明.基于5G技术的消防Mesh专网基站设计[J].消防科学与技术,2024,43(8):1116-1121.
9周涛,李鑫,周俊临,李奕.大模型智能体:概念、前沿和产业实践[J].电子科技大学学报（社科版）,2024,26(4):57-62.

1胡建平,汪永益,许成喜,施凡.基于信息熵的恶意域名识别技术[J].网络安全技术与应用,2017(11):22-24.
2叶孟宇.基于多臂赌博机的信道选择[J].软件,2018,39(4):196-200. 被引量：2
3吕净阁.分布式在线共轭对偶梯度算法[J].阜阳师范学院学报（自然科学版）,2018,35(4):63-68.
4Gao Shi,Huang Peizhao.The U.S. "Withdrawal" Destroys Implementation of the Iran Nuclear Agreement[J].Peace,2018(2):42-43.
5李德权,董翘,周跃进.分布式在线条件梯度优化算法[J].计算机科学,2019,46(3):332-337. 被引量：2
6葛晓东.IQ200尿沉渣分析仪检测尿红细胞白细胞的性能验证与假阳性结果分析[J].中国药物与临床,2019,19(6):985-987. 被引量：11
7郭文强,李然,侯勇严,高文强.约束条件下BN参数最大熵模型扩展学习算法[J].计算机应用研究,2019,36(2):390-394. 被引量：4
8李鹏飞,高峰,张艳辉.ABI Quantistudio Dx实时定量PCR仪HBV-DNA检测的性能验证[J].武警医学,2019,30(2):109-112. 被引量：4

计算机研究与发展

2019年第3期

浏览历史

内容加载中请稍等...

一种自适应的多臂赌博机算法被引量：9

参考文献6

二级参考文献76

共引文献113

同被引文献68

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种自适应的多臂赌博机算法 被引量：9

参考文献6

二级参考文献76

共引文献113

同被引文献68

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种自适应的多臂赌博机算法被引量：9