期刊文献+
共找到288篇文章
< 1 2 15 >
每页显示 20 50 100
融合协同过滤的神经Bandits推荐算法 被引量:1
1
作者 张婷婷 欧阳丹彤 +1 位作者 孙成林 白洪涛 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期92-99,共8页
针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用... 针对数据稀疏性和“冷启动”对协同过滤的限制以及现有的协同多臂老虎机算法不适用于非线性奖励函数的问题,提出一种融合协同过滤的神经Ba ndits推荐算法COEENet.首先,采用双神经网络结构学习预期奖励及潜在增益;其次,考虑邻居协同作用;最后,构造决策器进行最终决策.实验结果表明,该方法在累积遗憾上优于4种基线算法,推荐效果较好. 展开更多
关键词 协同过滤 多臂老虎机算法 推荐系统 冷启动
下载PDF
基于Bandit反馈的自适应量化分布式在线镜像下降算法
2
作者 谢俊如 高文华 谢奕彬 《控制理论与应用》 EI CAS CSCD 北大核心 2023年第10期1774-1782,共9页
多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降... 多智能体系统的在线分布式优化常用于处理动态环境下的优化问题,节点间需要实时传输数据流.在很多情况下,各节点无法获取个体目标函数的全部信息(包括梯度信息),并且节点间信息传输存在一定的通信约束.考虑到非欧投影意义下的镜像下降算法在处理高维数据和大规模在线学习上的优势,本文使用个体目标函数在两点处的函数值信息对缺失的梯度信息进行估计,并且根据镜像下降算法的性质设计自适应量化器,提出基于Bandit反馈的自适应量化分布式在线镜像下降算法.然后分析了量化误差界和Regret界的关系,适当选择参数可得所提算法的Regret界为O(√T).最后,通过数值仿真验证了算法和理论结果的有效性. 展开更多
关键词 镜像下降算法 多智能体系统 优化 量化 bandit反馈
下载PDF
Distributed Weighted Data Aggregation Algorithm in End-to-Edge Communication Networks Based on Multi-armed Bandit 被引量:1
3
作者 Yifei ZOU Senmao QI +1 位作者 Cong'an XU Dongxiao YU 《计算机科学》 CSCD 北大核心 2023年第2期13-22,共10页
As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when ... As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when learning agents are deployed on the edge side,the data aggregation from the end side to the designated edge devices is an important research topic.Considering the various importance of end devices,this paper studies the weighted data aggregation problem in a single hop end-to-edge communication network.Firstly,to make sure all the end devices with various weights are fairly treated in data aggregation,a distributed end-to-edge cooperative scheme is proposed.Then,to handle the massive contention on the wireless channel caused by end devices,a multi-armed bandit(MAB)algorithm is designed to help the end devices find their most appropriate update rates.Diffe-rent from the traditional data aggregation works,combining the MAB enables our algorithm a higher efficiency in data aggregation.With a theoretical analysis,we show that the efficiency of our algorithm is asymptotically optimal.Comparative experiments with previous works are also conducted to show the strength of our algorithm. 展开更多
关键词 Weighted data aggregation End-to-edge communication Multi-armed bandit Edge intelligence
下载PDF
Stochastic programming based multi-arm bandit offloading strategy for internet of things
4
作者 Bin Cao Tingyong Wu Xiang Bai 《Digital Communications and Networks》 SCIE CSCD 2023年第5期1200-1211,共12页
In order to solve the high latency of traditional cloud computing and the processing capacity limitation of Internet of Things(IoT)users,Multi-access Edge Computing(MEC)migrates computing and storage capabilities from... In order to solve the high latency of traditional cloud computing and the processing capacity limitation of Internet of Things(IoT)users,Multi-access Edge Computing(MEC)migrates computing and storage capabilities from the remote data center to the edge of network,providing users with computation services quickly and directly.In this paper,we investigate the impact of the randomness caused by the movement of the IoT user on decision-making for offloading,where the connection between the IoT user and the MEC servers is uncertain.This uncertainty would be the main obstacle to assign the task accurately.Consequently,if the assigned task cannot match well with the real connection time,a migration(connection time is not enough to process)would be caused.In order to address the impact of this uncertainty,we formulate the offloading decision as an optimization problem considering the transmission,computation and migration.With the help of Stochastic Programming(SP),we use the posteriori recourse to compensate for inaccurate predictions.Meanwhile,in heterogeneous networks,considering multiple candidate MEC servers could be selected simultaneously due to overlapping,we also introduce the Multi-Arm Bandit(MAB)theory for MEC selection.The extensive simulations validate the improvement and effectiveness of the proposed SP-based Multi-arm bandit Method(SMM)for offloading in terms of reward,cost,energy consumption and delay.The results showthat SMMcan achieve about 20%improvement compared with the traditional offloading method that does not consider the randomness,and it also outperforms the existing SP/MAB based method for offloading. 展开更多
关键词 Multi-access computing Internet of things OFFLOADING Stochastic programming Multi-arm bandit
下载PDF
基于选择的移动群智感知反向拍卖激励机制
5
作者 杨桂松 武金伟 +1 位作者 何杏宇 卢海军 《智能计算机与应用》 2024年第4期52-59,共8页
由于移动群智感知中工人和平台的自私性,社会福利和数据质量往往难以达到平衡,损害了基于移动群智感知的服务可用性和准确性。为了解决这一问题,本文提出一种基于选择的反向拍卖激励机制,分别研究反向拍卖中以工人为中心的任务选择和以... 由于移动群智感知中工人和平台的自私性,社会福利和数据质量往往难以达到平衡,损害了基于移动群智感知的服务可用性和准确性。为了解决这一问题,本文提出一种基于选择的反向拍卖激励机制,分别研究反向拍卖中以工人为中心的任务选择和以平台为中心的工人选择,在最大限度提高社会福利的同时优化数据质量。首先,根据工人和任务的位置等属性评估工人与任务之间的匹配度,提出基于动态规划的任务选择算法,在工人资源约束下为每个工人选择具有最佳回报的任务进行投标;其次,使用多臂赌博机建模反向拍卖赢家选择过程,并设计了一种基于置信度上界的赢家选择算法,以确定最佳中标工人集;最后,实验验证本文所提出的激励机制能够同时有效提升社会福利和数据质量。 展开更多
关键词 移动群智感知 激励机制 反向拍卖 动态规划 多臂赌博机
下载PDF
对新产品开发的最优价值分析——基于Bandit过程的模型研究 被引量:6
6
作者 谢武 陈晓剑 巩国顺 《预测》 CSSCI 2003年第4期75-77,80,共4页
新产品开发的成败直接关系到企业的生存和发展,因而有效的新产品开发始终是企业追求的目标。本文运用备择Bandit过程的原理对新产品开发的最优价值进行了一定程度的探讨。本文的最后结论认为新产品开发的最优价值取决于Gittins指标法则... 新产品开发的成败直接关系到企业的生存和发展,因而有效的新产品开发始终是企业追求的目标。本文运用备择Bandit过程的原理对新产品开发的最优价值进行了一定程度的探讨。本文的最后结论认为新产品开发的最优价值取决于Gittins指标法则的有效性,即最终取决于市场占有率,对新产品需求预测的准确性,对消费者认知价值预测的准确性以及新产品投放市场的有效性,对这些变量的预测越精确,最优规则越有效,新产品开发成功的价值越大。 展开更多
关键词 新产品开发 顺序 bandit过程 Gittins定理 最优价值
下载PDF
MOOB:一种改进的基于Bandit模型的推荐算法 被引量:1
7
作者 帖军 孙荣苑 +1 位作者 孙翀 郑禄 《中南民族大学学报(自然科学版)》 CAS 2018年第1期114-119,共6页
提出了一种基于置信区间上界算法的多目标优化推荐算法.该算法可以在保证预测精准度的基础上有效地避免马太效应,并提高推荐系统对长尾物品的挖掘能力.采用Ya Hoo的新闻推荐数据集对算法进行了实验和评价,实验结果表明:多目标优化推荐... 提出了一种基于置信区间上界算法的多目标优化推荐算法.该算法可以在保证预测精准度的基础上有效地避免马太效应,并提高推荐系统对长尾物品的挖掘能力.采用Ya Hoo的新闻推荐数据集对算法进行了实验和评价,实验结果表明:多目标优化推荐算法能够在预测准确率较高的情况下,有效地解决长尾物品发掘问题,避免马太效应,提高推荐系统的精度和广度. 展开更多
关键词 bandit模型 马太效应 长尾现象 多目标优化 覆盖率
下载PDF
单臂Erlang(k) Bandit报酬过程 被引量:1
8
作者 邹捷中 邓倩 梁友 《长沙电力学院学报(自然科学版)》 2006年第4期69-71,77,共4页
应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负... 应用贝叶斯方法,对未知Band it报酬过程的抽样报酬基于Erlang(k)分布的单臂Erlang(k)Band it报酬过程提出计算描述最优选择的平衡值序列的算法.有效解决了单臂Erlang(k)Band it报酬过程的最优决策问题,将Band it报酬过程基于的分布从负指数分布推广至目前在实际中应用更为广泛的分布,是对Band it报酬过程的补充和推广.使用本算法通过数值计算可以得到G ittins指数的近似解. 展开更多
关键词 贝叶斯方法 多臂bandit过程 单臂bandit过程 Gittins指数 平衡值 bandit报酬过程 分布
下载PDF
基于Fed-DPDOBO的分散式联邦学习
9
作者 杨巨 邓志良 +2 位作者 杨志强 王燕 赵中原 《计算机与现代化》 2024年第4期99-106,共8页
传统的客户-服务器架构联邦学习作为解决数据孤岛问题的有效手段,其中心服务器面临着巨大的带宽压力,分散式的对等架构联邦学习在一定程度上可改善这种情况。然而,联邦学习的客户端还存在着数据隐私泄露的风险,而且其成本函数梯度信息... 传统的客户-服务器架构联邦学习作为解决数据孤岛问题的有效手段,其中心服务器面临着巨大的带宽压力,分散式的对等架构联邦学习在一定程度上可改善这种情况。然而,联邦学习的客户端还存在着数据隐私泄露的风险,而且其成本函数梯度信息在某些情况下很难获得。针对这些问题,本文为一致性约束下的对等架构联邦学习设计一种Federated Differential Privacy Distributed One-point Bandit Online(Fed-DPDOBO)算法,可有效地解决中心服务器带宽限制和客户端梯度信息未知的问题。此外,差分隐私技术的运用,可很好地保护各客户端数据隐私。最后,通过利用MINST数据集进行分散式联邦学习实验,验证本文算法的有效性。 展开更多
关键词 数据孤岛 联邦学习 一致性约束 对等架构 差分隐私 单点bandit
下载PDF
利用Bandit算法解决推荐系统E&E问题 被引量:1
10
作者 高海宾 《韶关学院学报》 2017年第9期22-26,共5页
当前推荐系统开发应用过程中普遍存在着E&E问题,笔者指出了推荐系统中E&E问题的产生和分类,提出用Bandit算法解决这一问题的思路,重点探讨Bandit算法的数学模型和用UCB策略建立的Bandit算法模型,用MATLAB编写了核心仿真程序,并... 当前推荐系统开发应用过程中普遍存在着E&E问题,笔者指出了推荐系统中E&E问题的产生和分类,提出用Bandit算法解决这一问题的思路,重点探讨Bandit算法的数学模型和用UCB策略建立的Bandit算法模型,用MATLAB编写了核心仿真程序,并指出了这种算法模型存在的优点和不足. 展开更多
关键词 bandit算法 推荐系统 E&E问题
下载PDF
考虑抽样时间间隔的特殊单臂Bandit报酬过程
11
作者 邹捷中 梁友 《铁道科学与工程学报》 CAS CSCD 北大核心 2006年第6期87-90,共4页
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit... 应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题。在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程。讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法。 展开更多
关键词 贝叶斯方法 特殊单臂bandit报酬过程 Gittins指灵敏 Erlang(2)布
下载PDF
基于鲁棒Restless Bandits模型的多水下自主航行器任务分配策略 被引量:2
12
作者 李鑫滨 章寿涛 +1 位作者 闫磊 韩松 《计算机应用》 CSCD 北大核心 2019年第10期2795-2801,共7页
针对水下监测网络中多自主航行器(AUV)协同信息采集任务分配问题进行了研究。首先,为了同时考虑系统中目标传感器的节点状态与声学信道状态对AUV任务分配问题的影响,构建了水声监测网络系统的综合模型;其次,针对水下存在的多未知干扰因... 针对水下监测网络中多自主航行器(AUV)协同信息采集任务分配问题进行了研究。首先,为了同时考虑系统中目标传感器的节点状态与声学信道状态对AUV任务分配问题的影响,构建了水声监测网络系统的综合模型;其次,针对水下存在的多未知干扰因素并考虑了模型产生不精确的情况,基于强化学习理论将多AUV任务分配系统建模为鲁棒无休止赌博机问题(RBP)。最后,提出鲁棒Whittle算法求解所建立的RBP,从而求解得出多AUV的任务分配策略。仿真结果表明,在干扰环境下与未考虑干扰因素的分配策略相比,在系统分别选择1、2、3个目标时,鲁棒AUV分配策略对应的系统累计回报值参数的性能分别提升了5.5%、12.3%和9.6%,验证了所提方法的有效性。 展开更多
关键词 水声监测网络 水下自主航行器任务分配 鲁棒控制 不确定模型 无休止赌博机问题
下载PDF
近代中国刑法中匪盗罪之行为变迁研究
13
作者 张亚飞 梁玉帆 《陕西行政学院学报》 2024年第2期72-77,共6页
匪盗罪为近代中国刑法中一直存在的罪名,社会危害性严重。自清末直至民国时期的刑事立法都对匪盗罪作出相应的法律规范。罪罚相当,关于匪盗行为是否为罪,适用何种刑罚处置,各类案件是否为匪盗犯罪等问题的解决皆有法可依。无行为则无犯... 匪盗罪为近代中国刑法中一直存在的罪名,社会危害性严重。自清末直至民国时期的刑事立法都对匪盗罪作出相应的法律规范。罪罚相当,关于匪盗行为是否为罪,适用何种刑罚处置,各类案件是否为匪盗犯罪等问题的解决皆有法可依。无行为则无犯罪,刑法对匪盗行为的认定标准逐渐细化,由重视匪盗行为本身过渡到确定匪盗行为的不法目的性,最后上升到认定匪盗行为的社会危害性,匪盗罪在近代中国刑法中的法律涵义更为明晰。 展开更多
关键词 匪盗罪 行为 变迁
下载PDF
基于上下文赌博机的自适应实时车间调度
14
作者 陈鸣 王闯 许政 《计算机系统应用》 2024年第3期281-287,共7页
传统的多Agent车间调度方法使用单一调度规则,忽略了生产环境变化对调度规则适用性的影响,导致调度结果欠佳.本文针对该问题提出一种自适应实时车间调度方法,通过上下文赌博机对工件调度过程进行类比建模.经过若干回合学习的上下文赌博... 传统的多Agent车间调度方法使用单一调度规则,忽略了生产环境变化对调度规则适用性的影响,导致调度结果欠佳.本文针对该问题提出一种自适应实时车间调度方法,通过上下文赌博机对工件调度过程进行类比建模.经过若干回合学习的上下文赌博机模型能够依据生产环境制定调度决策,获得优异的调度结果.最后,通过仿真实验验证了提出方法的有效性. 展开更多
关键词 多AGENT系统 上下文赌博机 车间调度 自适应调度规则
下载PDF
基于多臂老虎机的异质网络表示学习方法
15
作者 闫旸 陈泽秋 邓钧霖 《天津职业技术师范大学学报》 2024年第1期61-65,共5页
针对异质网络表示学习中邻接节点表示向量的融合问题,提出基于多臂老虎机的异质网络表示学习方法。该方法采用基于多臂老虎机思想,实现异质网络中元路径关系的权重的自适应计算,在节点分类任务上取得的Micro-F1值(89.56%和54.79%)和Macr... 针对异质网络表示学习中邻接节点表示向量的融合问题,提出基于多臂老虎机的异质网络表示学习方法。该方法采用基于多臂老虎机思想,实现异质网络中元路径关系的权重的自适应计算,在节点分类任务上取得的Micro-F1值(89.56%和54.79%)和Macro-F1值(89.09%和53.14%)均优于基准测试。面对节点信息的多样性,基于多臂老虎机的网络表示学习方法能够将网络结构和节点信息更加有效地融入图的表示学习中。 展开更多
关键词 多臂老虎机模型 异质网络 网络表示学习 自适应权重
下载PDF
南宋荆襄地区茶寇治理与演变
16
作者 李宗隆 《汉江师范学院学报》 2024年第1期67-73,共7页
由唐至宋,荆襄地区茶叶产量空前提升,饮茶文化风行一时,私贩茶叶也越发活跃于这一地区。紧邻边境、水路交通便捷为此地武装贩运活动提供便利。基层官吏缺失与官军战力下降等因素使“茶寇”变为社会沉疴宿疾。至孝宗时“茶寇”活动达到顶... 由唐至宋,荆襄地区茶叶产量空前提升,饮茶文化风行一时,私贩茶叶也越发活跃于这一地区。紧邻边境、水路交通便捷为此地武装贩运活动提供便利。基层官吏缺失与官军战力下降等因素使“茶寇”变为社会沉疴宿疾。至孝宗时“茶寇”活动达到顶峰,宋廷面对财政渐蹙、官军腐弱的现状,开始逐渐将治理“茶寇”的方式由以法律惩处与军事镇压转向招纳为军,利用地方精英将“茶寇”转变为边防的重要补充。这种变化促使荆襄地区出现由“茶寇”及武装茶商团体共同组成的“茶商军”,为弥补南宋边防、提升守御战力发挥了重要作用。 展开更多
关键词 荆襄 茶寇 茶业经济 地方精英
下载PDF
基于应急融合网络应用的多路径Bandit优化算法
17
作者 伍富 郑霖 李晓记 《计算机工程》 CAS CSCD 北大核心 2017年第3期134-139,共6页
传统的无线通信网络由于结构单一,性能上诸多受限,难以保障应急通信的质量。为此,在认知无线自组织网络与移动蜂窝网络相融合的新背景下,提出一种多路径Bandit算法。将通信中的选路过程分为多时隙路径选择子阶段,通过对权衡网络时延和... 传统的无线通信网络由于结构单一,性能上诸多受限,难以保障应急通信的质量。为此,在认知无线自组织网络与移动蜂窝网络相融合的新背景下,提出一种多路径Bandit算法。将通信中的选路过程分为多时隙路径选择子阶段,通过对权衡网络时延和能效目标函数的计算进行路径优选,从而合理地分布网络中各节点的能耗。仿真结果表明,对比非应急业务应用和贪婪算法,在融合网络应急业务应用下,多路径Bandit算法的网络生存期提高了3%~20%。 展开更多
关键词 融合网络 应急通信 bandit理论 有限状态马尔科夫链 多路径 多网关
下载PDF
融合用户聚类与Bandits算法的微博推荐模型
18
作者 何羽丰 徐建民 张彬 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2122-2130,共9页
针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通... 针对微博推荐系统中存在的新用户冷启动和数据稀疏性问题,提出一种微博推荐模型.该模型通过重要用户聚类和普通用户分类构建完整用户类,基于类兴趣表征普通用户兴趣,利用Bandits算法为完整用户类中的普通用户产生微博推荐列表,根据普通用户对推荐列表的反馈更新其所属完整用户类的历史数据,合理应对新用户冷启动,降低了数据稀疏度,实现了较为准确的微博推荐,为微博推荐模型的构建提供了新的思路.实验结果表明,该模型能够推荐给用户感兴趣的博文,推荐效果较现有随机探索类算法、置信区间类算法和概率匹配类算法分别最低提高5.62%、5.43%和33.37%. 展开更多
关键词 微博推荐 用户聚类 bandits算法 冷启动 数据稀疏
下载PDF
融合协同过滤与上下文信息的Bandits推荐算法 被引量:12
19
作者 王宇琛 王宝亮 侯永宏 《计算机科学与探索》 CSCD 北大核心 2019年第3期361-373,共13页
随着推荐算法在众多领域的广泛应用,冷启动问题得到了越来越多的关注。针对仅可获得老用户对商品文字评价的场景,提出了一套解决用户冷启动问题的方案与算法。首先通过分析发现了文章主题提取与基于商品评价提取特征的相似性,因此引入... 随着推荐算法在众多领域的广泛应用,冷启动问题得到了越来越多的关注。针对仅可获得老用户对商品文字评价的场景,提出了一套解决用户冷启动问题的方案与算法。首先通过分析发现了文章主题提取与基于商品评价提取特征的相似性,因此引入自然语言处理领域的LDA(latent Dirichlet allocation)生成模型提取商品潜在特征;然后在传统Bandits算法的基础上融入邻居用户的协同作用提出了COLINBA(collaborativefiltering context linear Bandits)算法,该算法通过相似度权重因子控制邻居用户对推荐结果的贡献,使得协同作用更加精确有效,推荐完成后根据用户真实反馈以及所推荐商品的特征更新用户特征。最后采用真实数据集Delicious和Last.fm将该算法与该领域的最新方法进行比较,实验结果表明该算法对推荐效果有提升作用。 展开更多
关键词 推荐系统 冷启动 多臂赌博机 协同过滤
下载PDF
基于Bandit反馈的在线分布式镜面下降算法
20
作者 朱小梅 李觉友 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期99-107,共9页
针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方... 针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题. 展开更多
关键词 在线学习 分布式优化 镜面下降算法 bandit反馈 Regret界
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部