期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
Strict greedy design paradigm applied to the stochastic multi-armed bandit problem
1
作者 Joey Hong 《机床与液压》 北大核心 2015年第6期1-6,共6页
The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the... The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the outcomes of past decisions and opportunities of future ones. Reinforcement learning,which is fundamental to sequential decision-making,consists of the following components: 1 A set of decisions epochs; 2 A set of environment states; 3 A set of available actions to transition states; 4 State-action dependent immediate rewards for each action.At each decision,the environment state provides the decision maker with a set of available actions from which to choose. As a result of selecting a particular action in the state,the environment generates an immediate reward for the decision maker and shifts to a different state and decision. The ultimate goal for the decision maker is to maximize the total reward after a sequence of time steps.This paper will focus on an archetypal example of reinforcement learning,the stochastic multi-armed bandit problem. After introducing the dilemma,I will briefly cover the most common methods used to solve it,namely the UCB and εn- greedy algorithms. I will also introduce my own greedy implementation,the strict-greedy algorithm,which more tightly follows the greedy pattern in algorithm design,and show that it runs comparably to the two accepted algorithms. 展开更多
关键词 Greedy algorithms Allocation strategy Stochastic multi-armed bandit problem
下载PDF
Training a Quantum Neural Network to Solve the Contextual Multi-Armed Bandit Problem
2
作者 Wei Hu James Hu 《Natural Science》 2019年第1期17-27,共11页
Artificial intelligence has permeated all aspects of our lives today. However, to make AI behave like real AI, the critical bottleneck lies in the speed of computing. Quantum computers employ the peculiar and unique p... Artificial intelligence has permeated all aspects of our lives today. However, to make AI behave like real AI, the critical bottleneck lies in the speed of computing. Quantum computers employ the peculiar and unique properties of quantum states such as superposition, entanglement, and interference to process information in ways that classical computers cannot. As a new paradigm of computation, quantum computers are capable of performing tasks intractable for classical processors, thus providing a quantum leap in AI research and making the development of real AI a possibility. In this regard, quantum machine learning not only enhances the classical machine learning approach but more importantly it provides an avenue to explore new machine learning models that have no classical counterparts. The qubit-based quantum computers cannot naturally represent the continuous variables commonly used in machine learning, since the measurement outputs of qubit-based circuits are generally discrete. Therefore, a continuous-variable (CV) quantum architecture based on a photonic quantum computing model is selected for our study. In this work, we employ machine learning and optimization to create photonic quantum circuits that can solve the contextual multi-armed bandit problem, a problem in the domain of reinforcement learning, which demonstrates that quantum reinforcement learning algorithms can be learned by a quantum device. 展开更多
关键词 Continuous-Variable QUANTUM COMPUTERS QUANTUM Machine LEARNING QUANTUM Reinforcement LEARNING CONTEXTUAL Multi-Armed bandit problem
下载PDF
面向异构ICN节点的副本选择算法研究
3
作者 高雷 朱小勇 《网络新媒体技术》 2024年第4期26-34,共9页
信息中心网络(ICN)是一种革新式网络架构,打破了传统TCP/IP网络端到端传输的限制,提升内容分发效率。ICN构建全网规模的缓存系统,在网络内采用多副本冗余的方式缓存数据内容,以便用户就近获取。与传统互联网缓存系统不同,ICN的缓存呈现... 信息中心网络(ICN)是一种革新式网络架构,打破了传统TCP/IP网络端到端传输的限制,提升内容分发效率。ICN构建全网规模的缓存系统,在网络内采用多副本冗余的方式缓存数据内容,以便用户就近获取。与传统互联网缓存系统不同,ICN的缓存呈现泛在化的特点,工作设备是网络基础设施,导致服务资源的异构性普遍存在。在这种环境下,选择适当的副本节点成为重要研究问题。本文首先通过M/M/1排队模型对异构ICN节点进行抽象建模和分析,然后将异构副本节点的选择建模成多臂老虎机问题,继而引入UCB1算法来探索并学习最优决策。仿真实验结果表明,该算法在提高缓存服务可靠性和缩短内容获取时延方面具有明显优势,算法使服务可靠性达到99.15%,将内容获取的平均时延最大缩短8.63%。 展开更多
关键词 信息中心网络 网内缓存 副本选择 M/M/1 排队模型 多臂老虎机问题
下载PDF
基于鲁棒Restless Bandits模型的多水下自主航行器任务分配策略 被引量:2
4
作者 李鑫滨 章寿涛 +1 位作者 闫磊 韩松 《计算机应用》 CSCD 北大核心 2019年第10期2795-2801,共7页
针对水下监测网络中多自主航行器(AUV)协同信息采集任务分配问题进行了研究。首先,为了同时考虑系统中目标传感器的节点状态与声学信道状态对AUV任务分配问题的影响,构建了水声监测网络系统的综合模型;其次,针对水下存在的多未知干扰因... 针对水下监测网络中多自主航行器(AUV)协同信息采集任务分配问题进行了研究。首先,为了同时考虑系统中目标传感器的节点状态与声学信道状态对AUV任务分配问题的影响,构建了水声监测网络系统的综合模型;其次,针对水下存在的多未知干扰因素并考虑了模型产生不精确的情况,基于强化学习理论将多AUV任务分配系统建模为鲁棒无休止赌博机问题(RBP)。最后,提出鲁棒Whittle算法求解所建立的RBP,从而求解得出多AUV的任务分配策略。仿真结果表明,在干扰环境下与未考虑干扰因素的分配策略相比,在系统分别选择1、2、3个目标时,鲁棒AUV分配策略对应的系统累计回报值参数的性能分别提升了5.5%、12.3%和9.6%,验证了所提方法的有效性。 展开更多
关键词 水声监测网络 水下自主航行器任务分配 鲁棒控制 不确定模型 无休止赌博机问题
下载PDF
一种满足马尔可夫性质的不完全信息下的Web服务组合方法 被引量:19
5
作者 陈彦萍 李增智 +1 位作者 唐亚哲 郭志胜 《计算机学报》 EI CSCD 北大核心 2006年第7期1076-1083,共8页
针对满足马尔可夫性质的服务组合过程给出了按照用户服务质量(QoS)要求的服务组合方法.首先,提出了一种支持QoS属性描述的Web服务描述模型,并实现了对组合服务整个生命周期的QoS信息描述.在此基础上提出了基于多目标决策理论和k臂赌... 针对满足马尔可夫性质的服务组合过程给出了按照用户服务质量(QoS)要求的服务组合方法.首先,提出了一种支持QoS属性描述的Web服务描述模型,并实现了对组合服务整个生命周期的QoS信息描述.在此基础上提出了基于多目标决策理论和k臂赌博机理论的服务选择算法,与同类方法相比,该方法可以在不完全信息下根据用户对QoS属性的偏好来选择合适的候选服务进行组合.最后,给出了QoS驱动的服务组合框架E-WsFrame和具体实现,并分析了实验结果.实验表明E-WsFrame可以综合考虑服务组合的功能要求和QoS要求,从而根据服务请求实现服务的自动组合. 展开更多
关键词 面向服务的体系结构 WEB服务 服务组合 服务管理 QOS k臂赌博机算法
下载PDF
基于信任和K臂赌博机问题选择多问题协商对象 被引量:14
6
作者 王黎明 黄厚宽 柴玉梅 《软件学报》 EI CSCD 北大核心 2006年第12期2537-2546,共10页
Agent之间的多问题协商(multi-issuenegotiation)是一个复杂的动态交互过程.解决协商之前的对象选择问题在电子商务中有着重要的应用价值.为了提高多问题协商的准确性和购物Agent的效用,主要解决协商前的销售Agent的选择问题.为了充分... Agent之间的多问题协商(multi-issuenegotiation)是一个复杂的动态交互过程.解决协商之前的对象选择问题在电子商务中有着重要的应用价值.为了提高多问题协商的准确性和购物Agent的效用,主要解决协商前的销售Agent的选择问题.为了充分利用协商历史,实现探索(exploration)和利用(exploitation)的折衷,把销售Agent的选择问题转变成K臂赌博机问题(K-armedbanditproblem)来求解.提出了信任和声誉的度量模型,结合K臂赌博机问题的求解技术,采用学习机制,提出了几个确定奖励分布的改进算法.最后,以模拟协商过程为基础,将改进算法、信任和声誉有机地结合起来,提高了选择销售Agent的准确性和实用性.几个实验都说明了该工作在应用中的有效性. 展开更多
关键词 AGENT 协商水臂赌博机问题 信任 声誉 效用
下载PDF
浅析大革命时期中共关于土匪问题的策略方针 被引量:1
7
作者 王菠 董辉 《西南石油大学学报(社会科学版)》 2014年第2期110-115,共6页
土匪自古有之,近代以来,随着中国社会政治、经济危机的加剧,土匪问题更是愈演愈烈,截至中共成立时期,中国已俨然成为"土匪王国"、"盗匪世界"。关于土匪问题,中国共产党在成立后和大革命时期,坚持用马克思主义的立... 土匪自古有之,近代以来,随着中国社会政治、经济危机的加剧,土匪问题更是愈演愈烈,截至中共成立时期,中国已俨然成为"土匪王国"、"盗匪世界"。关于土匪问题,中国共产党在成立后和大革命时期,坚持用马克思主义的立场、观点分析处理问题,对中国兵匪互通的特殊国情、匪情保持清醒的认识,充分认识到土匪问题的严重性及其对国民革命的影响,号召并组织民众武装起来以抵御匪患,取得了良好的社会成效。 展开更多
关键词 大革命时期 中国共产党 土匪 兵匪互通 关于土匪问题的策略
下载PDF
浅析大革命时期中共关于土匪问题的策略方针
8
作者 王菠 董辉 《中国井冈山干部学院学报》 2014年第1期81-86,共6页
近代以来,随着中国社会、政治、经济危机的加剧,土匪问题愈演愈烈,至中共成立时期,中国已俨然被西方学者描绘成为"土匪王国"、"盗匪世界"。中国共产党在成立后和大革命时期,坚持用马克思主义的立场、观点分析处理... 近代以来,随着中国社会、政治、经济危机的加剧,土匪问题愈演愈烈,至中共成立时期,中国已俨然被西方学者描绘成为"土匪王国"、"盗匪世界"。中国共产党在成立后和大革命时期,坚持用马克思主义的立场、观点分析处理土匪问题,对中国兵匪互通的特殊国情、匪情保持清醒认识,充分认识到土匪问题的严重性及其对国民革命的影响,针对土匪问题的不同情形,采取有效的策略方针加以妥善处理,有力地推进了革命运动的开展,取得了一定的理论与实践积淀。 展开更多
关键词 大革命时期 中国共产党 土匪问题 策略 方针
下载PDF
论朱德关于土匪问题的认识及军事实践
9
作者 曾庆亮 孙祥榕 侯发兵 《西华师范大学学报(哲学社会科学版)》 2020年第4期76-81,共6页
朱德长期接触和处理土匪问题,形成了有关这一问题的一系列认识并有诸多军事实践。早在青少年时期,朱德即对被满清政府斥为“土匪”的底层群众抱以极大的同情;在滇军任职时期,他对危害百姓生命财产安全的各路土匪进行了艰苦的围剿,并总... 朱德长期接触和处理土匪问题,形成了有关这一问题的一系列认识并有诸多军事实践。早在青少年时期,朱德即对被满清政府斥为“土匪”的底层群众抱以极大的同情;在滇军任职时期,他对危害百姓生命财产安全的各路土匪进行了艰苦的围剿,并总结了丰富的游击战经验;新民主主义革命时期,他指挥革命军队对危害革命和抗战的土匪势力进行了坚决肃清,并从阶级角度指出土匪问题根源于土地制度,其实质是阶级问题,作为社会总问题的一部分它需要同时也只能在对旧社会的根本改造中得到彻底解决;新中国成立后,为维护国家安全和社会稳定,他命令人民解放军严厉镇压土匪活动并对新疆等地的剿匪问题有过重要指示。 展开更多
关键词 朱德 土匪 土匪问题 剿匪
下载PDF
最佳的分类器链局部检测与挖掘算法
10
作者 李哲 周油胜 +1 位作者 龙洋 黄益华 《计算机工程与设计》 北大核心 2017年第11期3056-3060,3079,共6页
为在先验信息不足以及数据动态变化时,从大数据中检测各种概念并提取有用的信息,提出一种局部检测与挖掘算法,构建最佳分类器链。采用多臂赌博机对分类器进行学习,构建的分类器在运行时不需要通过分布式局部分类器中央单元进行任何信息... 为在先验信息不足以及数据动态变化时,从大数据中检测各种概念并提取有用的信息,提出一种局部检测与挖掘算法,构建最佳分类器链。采用多臂赌博机对分类器进行学习,构建的分类器在运行时不需要通过分布式局部分类器中央单元进行任何信息的交换,只需反馈有限的挖掘效果,确保最佳分类器链的学习;无需任何先验信息,学习的后悔值随分类函数个数的增加呈线性增长。数值模拟实验结果表明,与经典相关方法相比,该方法在分类器数量增加时性能更优,收敛速度更快。 展开更多
关键词 分类器链 检测与挖掘 赌博机问题 后悔值 局部学习算法
下载PDF
Optimal index shooting policy for layered missile defense system 被引量:1
11
作者 LI Longyue FAN Chengli +2 位作者 XING Qinghua XU Hailong ZHAO Huizhen 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2020年第1期118-129,共12页
In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting op... In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting optimization is how to choose the next BM which needs to be shot according to the previous engagements and results,thus maximizing the expected return of BMs killed or minimizing the cost of BMs penetration.Motivated by this,this study aims to determine an optimal shooting policy for a two-layer missile defense(TLMD)system.This paper considers a scenario in which the TLMD system wishes to shoot at a collection of BMs one at a time,and to maximize the return obtained from BMs killed before the system demise.To provide a policy analysis tool,this paper develops a general model for shooting decision-making,the shooting engagements can be described as a discounted reward Markov decision process.The index shooting policy is a strategy that can effectively balance the shooting returns and the risk that the defense mission fails,and the goal is to maximize the return obtained from BMs killed before the system demise.The numerical results show that the index policy is better than a range of competitors,especially the mean returns and the mean killing BM number. 展开更多
关键词 Gittins index shooting policy layered missile defense multi-armed bandits problem Markov decision process
下载PDF
面向LinUCB算法的数据投毒攻击方法
12
作者 姜伟龙 何琨 《中国科学:信息科学》 CSCD 北大核心 2024年第7期1569-1587,共19页
LinUCB算法是求解上下文多臂老虎机问题的一种典型算法,被广泛应用于新闻投放、产品推荐、医疗资源分配等场景中.目前对该算法的安全性研究略显薄弱,这就要求研究者进一步加深对该算法的攻击方式的研究,以作出具有针对性乃至泛用性的防... LinUCB算法是求解上下文多臂老虎机问题的一种典型算法,被广泛应用于新闻投放、产品推荐、医疗资源分配等场景中.目前对该算法的安全性研究略显薄弱,这就要求研究者进一步加深对该算法的攻击方式的研究,以作出具有针对性乃至泛用性的防御措施.本文提出了两种通过添加虚假数据的方式对LinUCB算法进行离线数据投毒攻击的攻击方案,即TCA方案(target context attack)与OCA方案(optimized context attack).前者是基于训练数据与目标上下文的相似性来生成投毒数据的;后者是建模一个优化问题,通过求解该问题来构造投毒数据,是前者的优化版本.实验测试表明,仅需添加少量投毒数据作为攻击成本即可实现对攻击目标的100%攻击成功率. 展开更多
关键词 上下文多臂老虎机 LinUCB算法 数据投毒攻击 白盒攻击 优化问题
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部