期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
融合协同过滤的神经Bandits推荐算法 被引量:1
1
作者 张婷婷 欧阳丹彤 +1 位作者 孙成林 白洪涛 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期92-99,共8页
针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用... 针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用;最后,构造决策器进行最终决策.实验结果表明,该方法在累积遗憾上优于4种基线算法,推荐效果较好. 展开更多
关键词 协同过滤 多臂老虎机算法 推荐系统 冷启动
下载PDF
基于Bandit反馈的自适应量化分布式在线镜像下降算法
2
作者 谢俊如 高文华 谢奕彬 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第10期1774-1782,共9页
多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降... 多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降算法在处理高维数据和大规模在线学习上的优势,本文使用个体目标函数在两点处的函数值信息对缺失的梯度信息进行估计,并且根据镜像下降算法的性质设计自适应量化器,提出基于Bandit反馈的自适应量化分布式在线镜像下降算法.然后分析了量化误差界和Regret界的关系,适当选择参数可得所提算法的Regret界为O(√T).最后,通过数值仿真验证了算法和理论结果的有效性. 展开更多
关键词 镜像下降算法 多智能体系统 优化 量化 bandit反馈
下载PDF
面向不平衡类的联邦学习客户端智能选择算法
3
作者 朱素霞 王云梦 +1 位作者 颜培森 孙广路 《哈尔滨理工大学学报》 CAS 北大核心 2024年第2期33-42,共10页
在联邦学习应用场景下,若客户端设备之间的数据呈现非独立同分布特征,甚至出现类不平衡的情况时,客户端本地模型的优化目标将偏离全局优化目标,从而给全局模型的性能带来巨大挑战。为解决这种数据异质性带来的挑战,通过积极选择合适的... 在联邦学习应用场景下,若客户端设备之间的数据呈现非独立同分布特征,甚至出现类不平衡的情况时,客户端本地模型的优化目标将偏离全局优化目标,从而给全局模型的性能带来巨大挑战。为解决这种数据异质性带来的挑战,通过积极选择合适的客户端子集以平衡数据分布将有助于提高模型的性能。因此,设计了一种面向不平衡类的联邦学习客户端智能选择算法—FedSIMT。该算法不借助任何辅助数据集,在保证客户端本地数据对服务器端不可见的隐私前提下,使用Tanimoto系数度量本地数据分布与目标分布之间的差异,采用强化学习领域中的组合多臂老虎机模型平衡客户端设备选择的开发和探索,在不同数据异质性类型下提高了全局模型的准确率和收敛速度。实验结果表明,该算法具有有效性。 展开更多
关键词 联邦学习 类不平衡 客户端选择算法 多臂老虎机
下载PDF
利用Bandit算法解决推荐系统E&E问题 被引量:1
4
作者 高海宾 《韶关学院学报》 2017年第9期22-26,共5页
当前推荐系统开发应用过程中普遍存在着E&E问题,笔者指出了推荐系统中E&E问题的产生和分类,提出用Bandit算法解决这一问题的思路,重点探讨Bandit算法的数学模型和用UCB策略建立的Bandit算法模型,用MATLAB编写了核心仿真程序,并... 当前推荐系统开发应用过程中普遍存在着E&E问题,笔者指出了推荐系统中E&E问题的产生和分类,提出用Bandit算法解决这一问题的思路,重点探讨Bandit算法的数学模型和用UCB策略建立的Bandit算法模型,用MATLAB编写了核心仿真程序,并指出了这种算法模型存在的优点和不足. 展开更多
关键词 bandit算法 推荐系统 E&E问题
下载PDF
融合用户聚类与Bandits算法的微博推荐模型
5
作者 何羽丰 徐建民 张彬 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2122-2130,共9页
针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通... 针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通用户对推荐列表的反馈更新其所属完整用户类的历史数据,合理应对新用户冷启动,降低了数据稀疏度,实现了较为准确的微博推荐,为微博推荐模型的构建提供了新的思路.实验结果表明,该模型能够推荐给用户感兴趣的博文,推荐效果较现有随机探索类算法、置信区间类算法和概率匹配类算法分别最低提高5.62%、5.43%和33.37%. 展开更多
关键词 微博推荐 用户聚类 bandits算法 冷启动 数据稀疏
下载PDF
基于Bandit反馈的在线分布式镜面下降算法
6
作者 朱小梅 李觉友 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期99-107,共9页
针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方... 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题. 展开更多
关键词 在线学习 分布式优化 镜面下降算法 bandit反馈 Regret界
下载PDF
基于Bandit反馈的分布式在线对偶平均算法
7
作者 朱小梅 《四川轻化工大学学报(自然科学版)》 CAS 2020年第3期87-93,共7页
为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息... 为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息,克服了求解复杂函数梯度存在的计算量大等问题。然后,给出了该算法的收敛性分析,结果表明,Regret界的收敛速度为O(Tmax{k,1-k}),其中T是最大迭代次数。最后,利用传感器网络的一个特例进行了数值模拟计算,计算结果表明,所提算法的收敛速度与现有的分布式在线对偶平均(DODA)算法的收敛速度接近。与DODA算法相比,所提出算法的优点在于只考虑了函数值信息,使其更适用于梯度信息获取困难的实际问题。 展开更多
关键词 分布式在线优化 对偶平均算法 bandit反馈 Regret界
下载PDF
Strict greedy design paradigm applied to the stochastic multi-armed bandit problem
8
作者 Joey Hong 《机床与液压》 北大核心 2015年第6期1-6,共6页
The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the... The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the outcomes of past decisions and opportunities of future ones. Reinforcement learning,which is fundamental to sequential decision-making,consists of the following components: 1 A set of decisions epochs; 2 A set of environment states; 3 A set of available actions to transition states; 4 State-action dependent immediate rewards for each action.At each decision,the environment state provides the decision maker with a set of available actions from which to choose. As a result of selecting a particular action in the state,the environment generates an immediate reward for the decision maker and shifts to a different state and decision. The ultimate goal for the decision maker is to maximize the total reward after a sequence of time steps.This paper will focus on an archetypal example of reinforcement learning,the stochastic multi-armed bandit problem. After introducing the dilemma,I will briefly cover the most common methods used to solve it,namely the UCB and εn- greedy algorithms. I will also introduce my own greedy implementation,the strict-greedy algorithm,which more tightly follows the greedy pattern in algorithm design,and show that it runs comparably to the two accepted algorithms. 展开更多
关键词 Greedy algorithms Allocation strategy Stochastic multi-armed bandit problem
下载PDF
感知器学习算法研究 被引量:8
9
作者 刘建伟 申芳林 罗雄麟 《计算机工程》 CAS CSCD 北大核心 2010年第7期190-192,共3页
介绍感知器学习算法及其变种,给出各种感知器算法的伪代码,指出各种算法的优点。给出感知器算法在线性可分和线性不可分情况下的误差界定理,讨论各种感知器学习算法的误差界理论,给出各种算法的误差界。介绍感知器学习算法在在线优化场... 介绍感知器学习算法及其变种,给出各种感知器算法的伪代码,指出各种算法的优点。给出感知器算法在线性可分和线性不可分情况下的误差界定理,讨论各种感知器学习算法的误差界理论,给出各种算法的误差界。介绍感知器学习算法在在线优化场景、强化学习场景和赌博机算法中的应用,并对未解决的问题进行讨论。 展开更多
关键词 感知器 错误界 赌博机算法 强化学习
下载PDF
针对新用户冷启动问题的改进Epsilon-greedy算法 被引量:1
10
作者 王素琴 张洋 +1 位作者 蒋浩 朱登明 《计算机工程》 CAS CSCD 北大核心 2018年第11期172-177,共6页
在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,... 在解决新用户冷启动问题时,固定不变的Epsilon参数会使传统Epsilon-greedy算法收敛缓慢。为此,提出一种改进的Epsilon-greedy算法。利用免疫反馈模型动态调整Epsilon参数,从而使算法快速收敛。使用蒙特卡罗模拟方法对算法进行实验验证,结果表明,该算法能够在用户与推荐系统交互较少的情况下为用户进行有效推荐,且推荐效果优于传统的Epsilon-greedy、Softmax和UCB算法。 展开更多
关键词 推荐系统 冷启动 Epsilon-greedy算法 免疫反馈模型 bandit算法
下载PDF
基于多摇臂赌博机的产品定价算法 被引量:1
11
作者 毕文杰 郭乐薇 《计算机工程与应用》 CSCD 北大核心 2021年第11期224-231,共8页
针对在线零售商在不完全需求信息下的单产品定价问题,提出了一种基于多摇臂赌博机的产品定价算法。为了提升多摇臂赌博机算法在定价问题中的效果,该算法利用了需求曲线的单调性,并加入了消费者偏好识别。对消费者的保留价格进行分析得... 针对在线零售商在不完全需求信息下的单产品定价问题,提出了一种基于多摇臂赌博机的产品定价算法。为了提升多摇臂赌博机算法在定价问题中的效果,该算法利用了需求曲线的单调性,并加入了消费者偏好识别。对消费者的保留价格进行分析得到消费者购买概率,将在线零售商的定价问题建模为多摇臂赌博机模型,给出了相应的定价算法并进行了理论分析,最后通过仿真实验比较了相关算法的定价效果。仿真结果表明该算法提高了在线零售商的收益。 展开更多
关键词 动态定价 多摇臂赌博机 UCB1算法
下载PDF
基于强化学习的WLAN节点自适应调整技术 被引量:2
12
作者 陈禹 赵静雅 +1 位作者 朱庆华 刘涌 《计算机工程与设计》 北大核心 2019年第9期2422-2427,共6页
为提高WLAN无线网络节点的吞吐量,针对IEEE802.11无线网络中的速率自适应技术进行研究。基于一定程度的强化学习策略,提出多臂老虎机问题的速率自适应算法。与已提出的一些算法在信道稳定的情况下、信道逐渐变化的情况下、信道随机变化... 为提高WLAN无线网络节点的吞吐量,针对IEEE802.11无线网络中的速率自适应技术进行研究。基于一定程度的强化学习策略,提出多臂老虎机问题的速率自适应算法。与已提出的一些算法在信道稳定的情况下、信道逐渐变化的情况下、信道随机变化的情况下依次进行对比,观察它们的吞吐量变化情况,分析所提出算法性能的优劣性。仿真结果表明,当信道环境稳定或比较稳定时,该算法要优于其它自适应算法。 展开更多
关键词 WLAN无线局域网 速率自适应算法 强化学习 多臂老虎机 IEEE802.11
下载PDF
认知无线网络中基于无休止多臂赌博机模型的多用户频谱接入机制 被引量:5
13
作者 朱江 韩超 +1 位作者 杨浩磊 彭著勋 《计算机应用》 CSCD 北大核心 2014年第10期2782-2786,共5页
针对如何协调多个认知用户择机接入多段空闲频域信道的问题,提出了一种基于无休止多臂赌博机(RMAB)模型的动态频谱接入机制。首先,考虑到实际环境下认知用户的信道感知误差,推导出能有效处理感知误差的Whittle索引值算法,该算法通过历... 针对如何协调多个认知用户择机接入多段空闲频域信道的问题,提出了一种基于无休止多臂赌博机(RMAB)模型的动态频谱接入机制。首先,考虑到实际环境下认知用户的信道感知误差,推导出能有效处理感知误差的Whittle索引值算法,该算法通过历史经验积累给予每个信道一定的信任值,并综合考虑在当前信任值下选择每个信道的立即收益与未来收益的多少,选择出需要感知接入的信道;其次,对于多个认知用户接入相同信道时产生冲突的问题,提出了基于多标拍卖的协调机制,通过多标拍卖的方式处理认知用户之间的冲突。仿真结果表明,在相同的环境中,所提出的频谱接入机制与未处理误差的或者未采用多标拍卖的接入机制相比,认知用户获得的吞吐量更大。 展开更多
关键词 多用户多信道 无休止多臂赌博机模型 多标拍卖 Whittle索引值算法
下载PDF
基于Whittle索引的RFID多阅读器信道资源分配算法 被引量:5
14
作者 石静 郑嘉利 +2 位作者 袁源 王哲 李丽 《计算机科学》 CSCD 北大核心 2019年第10期122-127,共6页
针对无线射频识别(RFID)系统中多标签-多阅读器环境下标签与信道资源的分配问题,提出了一种基于Whittle索引的多阅读器信道资源分配算法。在RFID多阅读器信道分配问题中建立无休止多臂赌博机(RMAB)模型,并采用Whittle索引算法进行求解... 针对无线射频识别(RFID)系统中多标签-多阅读器环境下标签与信道资源的分配问题,提出了一种基于Whittle索引的多阅读器信道资源分配算法。在RFID多阅读器信道分配问题中建立无休止多臂赌博机(RMAB)模型,并采用Whittle索引算法进行求解。该算法依据信道前期的忙、闲状态,将信道空闲概率作为信任值赋予每个信道,并根据信道当前的信任值计算其Whittle索引值。标签选择索引值最大的信道作为可能感知接入的信道,随后根据每个时隙数据发送成功与否来动态更新信道信任值。对信道分配过程中可能出现的标签碰撞问题,采用等待一个时隙后再根据识别反馈信息重新选择接入信道的方式来解决。将文中所提算法从两个方面与典型的DiCa算法和Gentle算法进行比较:一是在阅读器数量固定的前提下,其系统吞吐量随待识别标签数量的变化情况;二是在待识别标签数量固定的前提下,其系统吞吐量随阅读器数量的变化情况。仿真结果表明,所提算法在上述两种情况下的系统吞吐量均优于DiCa算法和Gentle算法,其吞吐量在阅读器数量固定的前提下分别平均提高了150.34%和23.98%,在待识别标签数量固定的前提下分别平均提高了205.01%和43.37%。随着阅读器和待识别标签数量的增多,所提算法在系统吞吐量方面的优势更加明显。因此,采用提出的算法可以对有限的信道资源进行合理的动态分配,有效提高RFID多阅读器系统的识别效率。 展开更多
关键词 无线射频识别 多标签-多阅读器 无休止多臂赌博机模型 Whittle索引算法
下载PDF
考虑时变奖励的多摇臂算法在动态定价中的应用 被引量:1
15
作者 乔勋双 毕文杰 《计算机工程与应用》 CSCD 北大核心 2021年第12期237-242,共6页
考虑到动态定价是一个非固定性的多摇臂(Multi-Armed Bandit,MAB)问题,即厂商的利润会随时间变化,因此在相关研究基础上,研究了需求不确定情况下考虑时变奖励的置信区间上界(Upper Confidence Bound,UCB)算法在动态定价问题上的应用。... 考虑到动态定价是一个非固定性的多摇臂(Multi-Armed Bandit,MAB)问题,即厂商的利润会随时间变化,因此在相关研究基础上,研究了需求不确定情况下考虑时变奖励的置信区间上界(Upper Confidence Bound,UCB)算法在动态定价问题上的应用。将商品定价问题描述为一个多摇臂问题,并构建利润最大化模型求得最优解。仿真结果表明,通过将考虑时变奖励的置信区间上界算法与基础的多摇臂算法进行对比分析,所提出的算法学得的奖励更加接近真实奖励,收敛速度更快。相较于前人研究,该模型考虑了时变因素,更加符合现实场景中的动态定价,为厂商定价提供了相应的决策支持。 展开更多
关键词 多摇臂算法 动态定价 置信区间上界算法
下载PDF
在线影响力最大化研究综述 被引量:8
16
作者 孔芳 李奇之 李帅 《计算机科学》 CSCD 北大核心 2020年第5期7-13,共7页
影响力最大化是指在给定的影响力传播模型下选取种子节点使其传播信息范围最广。此问题的应用场景十分广泛,包括推荐系统、病毒营销、信息扩散和链接预测等。在实际应用中,信息传播模型中的点对点传播概率通常是未知的,而在线学习算法... 影响力最大化是指在给定的影响力传播模型下选取种子节点使其传播信息范围最广。此问题的应用场景十分广泛,包括推荐系统、病毒营销、信息扩散和链接预测等。在实际应用中,信息传播模型中的点对点传播概率通常是未知的,而在线学习算法可以在交互过程中自主学习未知参数,逐步逼近最优解。文中首先讨论了影响力最大化问题的定义,介绍了常用的影响力传播模型,归纳了常见的离线影响力最大化算法;随后介绍了经典的在线学习框架——多臂老虎机问题,分析了在线影响力最大化问题的研究现状,并通过实验对常见的在线影响力最大化算法在真实社交网络中的性能表现进行对比;最后总结了该课题面临的挑战并展望了未来的研究方向。 展开更多
关键词 影响力传播模型 影响力最大化 社交网络 在线学习算法 多臂老虎机
下载PDF
最佳的分类器链局部检测与挖掘算法
17
作者 李哲 周油胜 +1 位作者 龙洋 黄益华 《计算机工程与设计》 北大核心 2017年第11期3056-3060,3079,共6页
为在先验信息不足以及数据动态变化时,从大数据中检测各种概念并提取有用的信息,提出一种局部检测与挖掘算法,构建最佳分类器链。采用多臂赌博机对分类器进行学习,构建的分类器在运行时不需要通过分布式局部分类器中央单元进行任何信息... 为在先验信息不足以及数据动态变化时,从大数据中检测各种概念并提取有用的信息,提出一种局部检测与挖掘算法,构建最佳分类器链。采用多臂赌博机对分类器进行学习,构建的分类器在运行时不需要通过分布式局部分类器中央单元进行任何信息的交换,只需反馈有限的挖掘效果,确保最佳分类器链的学习;无需任何先验信息,学习的后悔值随分类函数个数的增加呈线性增长。数值模拟实验结果表明,与经典相关方法相比,该方法在分类器数量增加时性能更优,收敛速度更快。 展开更多
关键词 分类器链 检测与挖掘 赌博机问题 后悔值 局部学习算法
下载PDF
高速铁路场景中基于MAB模型的多信道选择算法
18
作者 朱豪 彭艺 +1 位作者 张申 李启骞 《吉林大学学报(理学版)》 CAS 北大核心 2021年第2期365-371,共7页
针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入... 针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入满意通信概率(SCP),衡量移动列车的通信质量,分析与切换过程中误码率之间的关系;最后,利用最优信道选择比率、成功传输率和累积接入损失作为评判标准,分析算法的性能.仿真结果表明,该算法的累积接入损失比原始UCB算法减少了约18.5%;对比随机选择算法与原始UCB算法,成功传输率提高了约30.2%和3.3%;最优选择比率提高了约88.3%和13.5%. 展开更多
关键词 越区切换 多臂老虎机模型 置信区间上界算法 满意通信概率
下载PDF
基于多臂赌博机算法的推荐系统研究 被引量:1
19
作者 陈珂 《长江信息通信》 2021年第3期43-46,共4页
随着各类移动端应用与网页端应用技术的不断发展,各类推荐系统与人类生活联系逐渐变得更为密切;用户对于推荐系统的推荐效果要求日益提高,持续单一的推荐内容已经不能满足用户不断提高的要求,因此如何精准对接用户需求,解决数据稀疏问... 随着各类移动端应用与网页端应用技术的不断发展,各类推荐系统与人类生活联系逐渐变得更为密切;用户对于推荐系统的推荐效果要求日益提高,持续单一的推荐内容已经不能满足用户不断提高的要求,因此如何精准对接用户需求,解决数据稀疏问题并提供给用户更为精确的推荐效果都已经成为推荐问题中亟待解决的问题。同时各种推荐系统技术不断发展,文章对近年来各种基于MAB算法的推荐系统的研究动态和最新进展进行了综述,对其基本概念和算法的核心思想以及评价指标诸如点击率,运行时长以及累积遗憾等方面进行了分析比较,并对推荐系统技术的发展趋势和应用前景进行了预测。 展开更多
关键词 多臂赌博机算法 UCB算法 Lin-UCB算法 推荐系统 汤普森抽样算法
下载PDF
基于Bandit学习的航空集群认知抗干扰信道选择 被引量:3
20
作者 仇启明 黎海涛 +1 位作者 张昊 罗佳伟 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第5期20-25,共6页
为解决航空集群网络(ASNET)利用认知抗干扰频谱接入时会发生信道碰撞从而降低通信性能问题,研究了基于多臂赌博机(MAB)理论的航空认知抗干扰频域信道选择技术.首先,构建航空集群网络抗干扰信道选择MAB博弈模型,给出了准确估算动态集群... 为解决航空集群网络(ASNET)利用认知抗干扰频谱接入时会发生信道碰撞从而降低通信性能问题,研究了基于多臂赌博机(MAB)理论的航空认知抗干扰频域信道选择技术.首先,构建航空集群网络抗干扰信道选择MAB博弈模型,给出了准确估算动态集群网络电台数量的算法;然后,基于此先验信息提出碰撞规避(CA)的klUCB++抗干扰信道选择策略,并进一步推导出信道碰撞次数的理论上界.仿真结果表明:所提出的CA kl-UCB++抗干扰信道选择策略降低了电台频谱接入的碰撞概率和累积悔值(regret),能够有效提高航空集群网络的频域抗干扰通信性能. 展开更多
关键词 航空集群网络 信道选择 认知抗干扰 kl-UCB++算法 多臂赌博机模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部