期刊文献+
共找到106篇文章
< 1 2 6 >
每页显示 20 50 100
结合自我特征和对比学习的推荐模型
1
作者 杨兴耀 陈羽 +3 位作者 于炯 张祖莲 陈嘉颖 王东晓 《计算机应用》 CSCD 北大核心 2024年第9期2704-2710,共7页
针对图神经网络推荐中图卷积在消息传递过程的嵌入表示过平滑和噪声问题,提出一种结合自我特征和对比学习的推荐模型(SfCLRec)。采用预训练-正式训练架构训练模型,首先预训练用户和项目的嵌入表示,通过融合节点自我特征维持节点本身的... 针对图神经网络推荐中图卷积在消息传递过程的嵌入表示过平滑和噪声问题,提出一种结合自我特征和对比学习的推荐模型(SfCLRec)。采用预训练-正式训练架构训练模型,首先预训练用户和项目的嵌入表示,通过融合节点自我特征维持节点本身的特征唯一性,并引入层级对比学习任务减少来自高阶邻居节点中的噪声;其次,在正式训练阶段根据评分机制重新构建协同图邻接矩阵;最后,根据最终嵌入得到预测评分。实验结果表明,相较于LightGCN、SimGCL(Simple Graph Contrastive Learning)等现有图神经网络推荐模型,SfCLRec在3个公开数据集ML-latest-small、Last.FM和Yelp中均取得了较好的召回率和归一化折损累计增益(NDCG),验证了SfCLRec的有效性。 展开更多
关键词 图协同过滤 过平滑 自我特征 对比学习 图神经网络 个性化推荐
下载PDF
基于层间融合滤波器与社交神经引文网络的推荐算法
2
作者 杨兴耀 李志林 +3 位作者 张祖莲 于炯 陈嘉颖 王东晓 《计算机工程》 CAS CSCD 北大核心 2024年第11期98-106,共9页
推荐算法是一种用于解决信息过载问题的方法,引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中,存在文本噪声和上下文学习不充分的问题。为此,提出一种基于层间融合滤波器和... 推荐算法是一种用于解决信息过载问题的方法,引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中,存在文本噪声和上下文学习不充分的问题。为此,提出一种基于层间融合滤波器和社交神经引文网络的推荐算法FS-Rec。首先,利用具有层间融合滤波器的BERT模型预处理引文上下文,在频域内从所有频率中提取有意义的特征,缓解引文上下文数据的噪声,同时在频域中对多层信息进行融合,增强上下文表示学习的能力;然后,在引文作者嵌入中引入社交关系,与其他引文信息嵌入通过编码器获得表示,将这些表示与经过BERT预训练的引文上下文表示进行融合,得到最终表示;最后,根据最终表示生成引文文本预测。实验结果表明,相较于现有的上下文引文推荐模型,FS-Rec在2个基准数据集arXivCS和PubMed取得了更高的召回率和平均倒数排名(MMR),证明了模型的有效性。 展开更多
关键词 滤波器 自注意力机制 基于Transformer的双向编码器表示 引文推荐 预训练语言模型
下载PDF
基于偏好感知的去噪图卷积网络社交推荐
3
作者 杨兴耀 马帅 +3 位作者 张祖莲 于炯 陈嘉颖 王东晓 《计算机工程》 CAS CSCD 北大核心 2024年第10期154-163,共10页
协同过滤推荐通常面临用户-项目交互数据稀疏的挑战,社交推荐引入用户社交关系来缓解数据稀疏性问题。多数基于图神经网络(GNN)的社交推荐系统在消息传递过程中无法根据用户偏好聚合高阶邻居信息,造成嵌入表示过平滑和噪声问题。针对上... 协同过滤推荐通常面临用户-项目交互数据稀疏的挑战,社交推荐引入用户社交关系来缓解数据稀疏性问题。多数基于图神经网络(GNN)的社交推荐系统在消息传递过程中无法根据用户偏好聚合高阶邻居信息,造成嵌入表示过平滑和噪声问题。针对上述问题,提出一种基于偏好感知的去噪图卷积网络的社交推荐模型PD-GCN。使用无监督学习将具有相似偏好的用户分配到用户-项目交互子图和社交子图,在子图中进行更高阶的图卷积运算,缓解了现有模型的过平滑问题。从全局和局部的角度出发,通过考虑相同偏好用户节点的特征相似度和邻域节点偏好分布多样性识别并去除噪声节点,增强模型对用户-项目交互和社交关系噪声的鲁棒性。在LastFM、Ciao、Yelp 3个公共数据集上的实验结果表明,PD-GCN模型在召回率和归一化折损累计增益两个指标上相较于其他主流模型表现出更优的性能,验证了PD-GCN模型的有效性。 展开更多
关键词 社交推荐 图卷积网络 过平滑 用户偏好 推荐系统
下载PDF
基于层级过滤器和时间卷积增强自注意力网络的序列推荐
4
作者 杨兴耀 沈洪涛 +3 位作者 张祖莲 于炯 陈嘉颖 王东晓 《计算机应用》 CSCD 北大核心 2024年第10期3090-3096,共7页
针对实际推荐场景中用户意外交互产生的噪声问题,以及自注意力机制中注意力分布分散导致用户短期需求偏移难以捕获的问题,提出一种基于层级过滤器和时间卷积增强自注意力网络的序列推荐(FTARec)模型。首先,通过层级过滤器过滤原始数据... 针对实际推荐场景中用户意外交互产生的噪声问题,以及自注意力机制中注意力分布分散导致用户短期需求偏移难以捕获的问题,提出一种基于层级过滤器和时间卷积增强自注意力网络的序列推荐(FTARec)模型。首先,通过层级过滤器过滤原始数据中的噪声;其次,结合时间卷积增强自注意力网络和解耦混合位置编码获取用户嵌入,该过程通过时间卷积增强补充自注意力网络在项目短期依赖建模上的不足;最后,结合对比学习改善用户嵌入,并根据最终用户嵌入进行预测。相较于自注意力序列推荐(SASRec)、过滤增强的多层感知器序列推荐方法(FMLPRec)等现有序列推荐模型,FTARec在3个公开数据集Beauty、Clothing和Sports上取得了更高的命中率(HR)和归一化折损累计增益(NDCG),相较于次优的DuoRec,HR@10分别提高了7.91%、13.27%和12.84%,NDCG@10分别提高了5.52%、8.33%和9.88%,验证了所提模型的有效性。 展开更多
关键词 自注意力机制 过滤算法 时间卷积网络 序列推荐 对比学习
下载PDF
联合训练下融合编解码器的序列推荐算法
5
作者 杨兴耀 党子博 +3 位作者 于炯 陈嘉颖 常梦雪 许凤 《计算机工程与设计》 北大核心 2024年第11期3289-3295,共7页
现有基于Transformer的推荐算法通常仅考虑使用编码器来进行推荐预测,缺乏利用解码器去“解码”用户行为序列的能力,不能较为准确预测用户下一次的交互行为。为解决此问题,基于阿里巴巴电子商务推荐的行为序列模型(BST)提出联合训练下... 现有基于Transformer的推荐算法通常仅考虑使用编码器来进行推荐预测,缺乏利用解码器去“解码”用户行为序列的能力,不能较为准确预测用户下一次的交互行为。为解决此问题,基于阿里巴巴电子商务推荐的行为序列模型(BST)提出联合训练下融合编解码器的序列推荐算法模型BSTEAD。通过采用联合训练机制,设置Transformer预测任务和BST预测任务。将两条预测任务的损失进行加权求和,得到最终的损失函数。在MovieLens和Goodbooks两个公共数据集上的实验结果表明,BSTEAD推荐算法与5个对比模型相比性能具有显著提升,验证了联合训练机制下解码器对推荐任务的有效性。 展开更多
关键词 用户序列 注意力机制 编码器 解码器 联合训练 序列推荐 推荐算法
下载PDF
采用偏好编辑的轻量自注意降噪序列推荐模型
6
作者 杨兴耀 钟志强 +3 位作者 于炯 李梓杨 张少东 党子博 《计算机工程与设计》 北大核心 2024年第10期2953-2959,共7页
在自注意序列推荐中,除项目嵌入矩阵带来巨大内存消耗问题和自注意层中的不相关信息带来噪声问题,还存在如何在用户行为数据稀疏的情况下准确提取和表示用户偏好的关键问题。针对这些问题,提出一种采用偏好编辑的轻量自注意降噪序列推... 在自注意序列推荐中,除项目嵌入矩阵带来巨大内存消耗问题和自注意层中的不相关信息带来噪声问题,还存在如何在用户行为数据稀疏的情况下准确提取和表示用户偏好的关键问题。针对这些问题,提出一种采用偏好编辑的轻量自注意降噪序列推荐模型(LDSR-PE)。采用上下文感知的动态嵌入组合方案缓解内存消耗问题,在每个自注意层上附加可训练的二进制掩膜,实现自适应修剪不相关噪声项。为更好训练模型,设计基于偏好编辑的自监督学习策略,促使序列推荐模型在不同的交互序列之间区分公共和唯一的偏好。在3个公开数据集上的实验结果表明,LDSR-PE优于主流先进推荐模型。 展开更多
关键词 序列推荐 偏好编辑 嵌入组合 自注意力机制 自监督学习 数据稀疏性 深度神经网络
下载PDF
基于排序蒸馏的序列化推荐算法
7
作者 杨兴耀 张君 +3 位作者 于炯 李梓杨 许凤 梁灏文 《计算机工程与设计》 北大核心 2024年第8期2475-2483,共9页
为解决当前基于知识蒸馏的推荐算法排名有效性和效率低,以及现有知识蒸馏模型更强调的是静态和单一知识迁移的问题,提出一种基于排序蒸馏的序列化推荐算法。训练一个性能优越、规模大的教师模型,训练一个符合移动终端设备的小模型即学... 为解决当前基于知识蒸馏的推荐算法排名有效性和效率低,以及现有知识蒸馏模型更强调的是静态和单一知识迁移的问题,提出一种基于排序蒸馏的序列化推荐算法。训练一个性能优越、规模大的教师模型,训练一个符合移动终端设备的小模型即学生模型,使学生模型在教师模型的指导下学习排序。学生模型实现了与教师模型相似的排名性能,且学生模型规模较小提高了在线推荐效率。通过在数据集MovieLens和Gowalla上的实验,验证了该模型增强了学生模型的学习效果,缓解了学生模型学习不充分导致排名不佳的问题。模型可以自然地运用于序列化推荐的模型中,具有很好的通用性。 展开更多
关键词 排序蒸馏 迁移学习 模型压缩 卷积神经网络 序列化推荐 合并蒸馏 混合加权
下载PDF
基于傅里叶变换与近端采样的序列推荐算法
8
作者 杨兴耀 李晨瑜 +1 位作者 于炯 李梓杨 《计算机仿真》 2024年第9期484-488,514,共6页
传统推荐算法比较注重于模型本身对于推荐效果的提升,实际上数据质量对于算法的影响更为重要,但目前在推荐算法领域对于数据的科学处理方法比较零散,没有形成一个系统的框架。针对以上问题,基于傅里叶变换与近端序列采样的数据预处理,结... 传统推荐算法比较注重于模型本身对于推荐效果的提升,实际上数据质量对于算法的影响更为重要,但目前在推荐算法领域对于数据的科学处理方法比较零散,没有形成一个系统的框架。针对以上问题,基于傅里叶变换与近端序列采样的数据预处理,结合SASRec提出可以普遍应用的序列推荐框架FTRRec。首先通过傅里叶变换将序列数据在时域和频域中相互转换,并根据序列数据的特点,过滤序列中的无用信息,其次使用近端序列采样替换传统的滑动窗口采样法,加速样本采样的同时,提升模型对于序列的特征捕获能力。通过在5个公开数据集上的实验,将框架应用于三个不同的主流推荐算法时,每种模型均有3%-5%的提升。 展开更多
关键词 序列化推荐 数据处理 傅里叶变换 序列采样
下载PDF
流式大数据平台下的弹性数据迁移能效优化策略 被引量:5
9
作者 蒲勇霖 许小龙 +2 位作者 于炯 李梓杨 国冰磊 《通信学报》 EI CSCD 北大核心 2024年第2期188-200,共13页
针对流式计算框架在最初设计时缺乏能效方面的考虑,导致其存在高能耗与低效率的问题,提出一种流式大数据平台下的弹性数据迁移节能优化策略。首先,建立负载预测模型与资源判定模型,并进一步设计负载预测算法,通过预测负载变化趋势确定... 针对流式计算框架在最初设计时缺乏能效方面的考虑,导致其存在高能耗与低效率的问题,提出一种流式大数据平台下的弹性数据迁移节能优化策略。首先,建立负载预测模型与资源判定模型,并进一步设计负载预测算法,通过预测负载变化趋势确定节点资源占用,找到资源过载与过剩节点;其次,建立资源约束模型与最优数据迁移模型,由此提出最优数据迁移算法,以提高节点资源利用率为目的进行数据迁移;最后,建立能耗模型,计算集群进行数据迁移后节约的能耗。实验结果表明,数据迁移节能优化策略能够对集群内节点资源变化做出及时响应,并在提高节点资源利用率的基础上,有效提高集群数据处理的能效。 展开更多
关键词 流式计算 负载预测 资源约束 数据迁移 能效
下载PDF
基于TreeLSTM的查询基数估计 被引量:1
10
作者 齐凯阳 于炯 +1 位作者 何贞贞 苏子航 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第1期55-64,共10页
针对传统的数据库管理系统无法很好地学习谓词之间的交互以及无法准确地估计复杂查询的基数问题,提出了一种树形结构的长短期记忆神经网络(Tree Long Short Term Memory, TreeLSTM)模型建模查询,并使用该模型对新的查询基数进行估计.所... 针对传统的数据库管理系统无法很好地学习谓词之间的交互以及无法准确地估计复杂查询的基数问题,提出了一种树形结构的长短期记忆神经网络(Tree Long Short Term Memory, TreeLSTM)模型建模查询,并使用该模型对新的查询基数进行估计.所提出的模型考虑了查询语句中包含的合取和析取运算,根据谓词之间的操作符类型将子表达式构建为树形结构,根据组合子表达式向量来表示连续向量空间中的任意逻辑表达式.TreeLSTM模型通过捕捉查询谓词之间的顺序依赖关系从而提升基数估计的性能和准确度,将TreeLSTM与基于直方图方法、基于学习的MSCN和TreeRNN方法进行了比较.实验结果表明:TreeLSTM的估算误差比直方图、MSCN、TreeRNN方法的误差分别降低了60.41%,33.33%和11.57%,该方法显著提高了基数估计器的性能. 展开更多
关键词 基数估计 数据库管理系统 查询优化器 神经网络 长短期记忆网络
下载PDF
图神经网络节点分类任务基准测试及分析
11
作者 张陶 廖彬 +2 位作者 于炯 李敏 孙瑞娜 《计算机科学》 CSCD 北大核心 2024年第4期132-150,共19页
图神经网络(Graph Neural Network,GNN)模型由于采用端到端的模型架构,在训练过程中能够更好地将节点隐藏特征的学习和分类目标协同起来,相比图嵌入(Graph Embedding)的方法,其在节点分类等任务上得到了较大的性能提升。但是,已有图神... 图神经网络(Graph Neural Network,GNN)模型由于采用端到端的模型架构,在训练过程中能够更好地将节点隐藏特征的学习和分类目标协同起来,相比图嵌入(Graph Embedding)的方法,其在节点分类等任务上得到了较大的性能提升。但是,已有图神经网络模型实验对比阶段普遍存在的数据集类型单一、样本量不足、数据集切分不规范、对比模型规模及范围有限、评价指标单一、缺乏模型训练耗时对比等问题。为此,文中选取了包括cora,citeseer,pubmed,deezer等在内的来自不同领域(引文网络、社交网络及协作网络等)的共计20种数据集,以准确率、精确率、召回率、F-score值及模型训练耗时为多维评价指标,在FastGCN,PPNP,ChebyNet,DAGNN等17种主流图神经网络模型上,进行了全面且公平的节点分类任务基准测评,进而为真实业务场景下的模型选择提供了决策参考。通过基准测试实验发现,一方面,影响模型训练速度的因素排名依次是节点属性维度、图节点规模及图边的规模;另一方面,并不存在赢者通吃的模型,即不存在在所有数据集下全都表现优异的模型,特别是在公平的基准测试配置环境下,结构简洁的模型反而比复杂的GNN模型有着更好的性能表现。 展开更多
关键词 图神经网络 基准测试 节点分类 性能评估 模型选择
下载PDF
铁皮石斛历史沿革及品质形成研究进展
12
作者 郑亚倩 曾慧婷 +2 位作者 余炅 王小青 虞金宝 《世界科学技术-中医药现代化》 CSCD 北大核心 2024年第2期502-510,共9页
铁皮石斛素来享有“中华九大仙草之首”的美名,同时也是珍稀濒危物种之一。古今典籍所载“石斛”为石斛属植物的统称,铁皮石斛一词始见于民国,于2010年从《中国药典》“石斛”项中单列出来。铁皮石斛产地在古今典籍记载颇多,安徽、浙江... 铁皮石斛素来享有“中华九大仙草之首”的美名,同时也是珍稀濒危物种之一。古今典籍所载“石斛”为石斛属植物的统称,铁皮石斛一词始见于民国,于2010年从《中国药典》“石斛”项中单列出来。铁皮石斛产地在古今典籍记载颇多,安徽、浙江、广东、江西、云南、四川等地均可作为其产区。关于其品质的评价,历代本草所载“生石上”“色金”“短而中实或细实”“茎小有节”的优质“石斛”应指“铁皮石斛”与“霍山石斛”。现代研究表明,光照、温度、湿度、内生真菌、酶和基因等为影响铁皮石斛中多糖、总生物碱、总黄酮等活性成分合成积累的主要因素。本文拟从铁皮石斛的本草考证、产地沿革、品质评价及影响其品质形成的因素等方面进行综述,以期为优化铁皮石斛现代栽培种植模式及提升铁皮石斛质量提供重要参考。 展开更多
关键词 铁皮石斛 历史沿革 活性成分 影响因素
下载PDF
基于跨尺度Vision Transformer的深度哈希算法
13
作者 姚佩昀 于炯 +2 位作者 李雪 李梓杨 陈鹏程 《计算机应用研究》 CSCD 北大核心 2024年第11期3477-3483,共7页
为了解决当前深度哈希算法提取跨尺度特征能力不足以及难以拟合数据的全局相似度分布问题,提出了一种基于跨尺度Vision Transformer的深度哈希算法。首先,利用金字塔卷积和跨尺度注意力机制构建了一种多层次编码器,来捕获图像丰富的语... 为了解决当前深度哈希算法提取跨尺度特征能力不足以及难以拟合数据的全局相似度分布问题,提出了一种基于跨尺度Vision Transformer的深度哈希算法。首先,利用金字塔卷积和跨尺度注意力机制构建了一种多层次编码器,来捕获图像丰富的语义信息;其次,提出了一种基于代理的深度哈希算法,该算法为每个类别生成哈希代理,使得哈希码可以学习具有鉴别性的类别特征,从而缩小与同类别哈希代理的距离并拟合数据全局相似性分布;最后,在哈希代理与哈希码之间添加角度边距项,扩大类内相似性和类间差异性,以生成具有高判别性的哈希码。通过在CIFAR-10、ImageNet-100、NUS-Wide、MS COCO上进行的实验结果表明,该算法的平均检索精度比次优方法分别提升4.42%、19.61%、0.35%、15.03%,验证了该算法的有效性。 展开更多
关键词 深度哈希 视觉注意力 哈希代理 跨尺度 图像检索
下载PDF
NLGAE:一种基于改进网络结构及损失函数的图自编码器节点分类模型
14
作者 廖彬 张陶 +1 位作者 于炯 李敏 《计算机科学》 CSCD 北大核心 2024年第10期234-246,共13页
利用图嵌入方法将图的拓扑结构、节点属性等高维异构信息映射到稠密的向量空间,是解决图数据由非欧空间性带来的计算不友好、邻接矩阵的高度空间复杂性等问题的主流方法。在对经典图自编码器模型GAE与VGAE所存在的问题进行分析的基础上... 利用图嵌入方法将图的拓扑结构、节点属性等高维异构信息映射到稠密的向量空间,是解决图数据由非欧空间性带来的计算不友好、邻接矩阵的高度空间复杂性等问题的主流方法。在对经典图自编码器模型GAE与VGAE所存在的问题进行分析的基础上,尝试从编码器、解码器及损失函数3个方面对基于图自编码器的图嵌入方法进行改进,提出一种基于改进网络结构及损失函数的图自编码器模型NLGAE。首先,在模型结构设计上,一方面将编码器中堆叠的图卷积层倒置,以解决GAE与VGAE中无参Decoder缺乏灵活性并且表达能力不足的问题,另一方面引入注意力机制的图卷积网络GAT来解决节点之间的权重系数固化的问题;其次,重新设计的损失函数能够同时考虑到图结构与节点特征属性两部分信息。对比实验结果表明:NLGAE作为一种无监督模型,能够学习到高质量的节点嵌入特征,在下游节点分类任务上优于DeepWalk,GAE,GrpahMAE,GATE等经典无监督模型,并且在选择合适分类模型的情况下,甚至优于GAT和GCN等有监督的图神经网络模型。 展开更多
关键词 图表示学习 图自编码器 注意力机制 节点分类
下载PDF
基于主成分分析-聚类分析的铁皮石斛鲜品品质评价研究
15
作者 郑亚倩 曾慧婷 +5 位作者 余炅 王小青 李晶 陈超 何小群 虞金宝 《山东中医药大学学报》 2024年第4期467-477,共11页
目的:优选铁皮石斛鲜品的性状评价指标,揭示其性状与成分之间的关联性,并对其进行综合评价。方法:测定不同批次铁皮石斛鲜品的外观性状指标(中部节间长、色度值等)及内在品质指标(粗纤维、多糖等),并通过Excel和SPSS 21.0软件进行数据... 目的:优选铁皮石斛鲜品的性状评价指标,揭示其性状与成分之间的关联性,并对其进行综合评价。方法:测定不同批次铁皮石斛鲜品的外观性状指标(中部节间长、色度值等)及内在品质指标(粗纤维、多糖等),并通过Excel和SPSS 21.0软件进行数据统计与分析。结果:中部茎粗、中部节间长可作为优选铁皮石斛鲜品的性状指标;铁皮石斛鲜品糖类成分中多糖和半乳糖醛酸、葡萄糖和半乳糖醛酸及半乳糖、甘露糖和半乳糖醛酸、半乳糖和阿拉伯糖之间存在显著性差异(P<0.05或P<0.01)。根据主成分分析-聚类分析可将12批铁皮石斛鲜品分为3类,第1类品质较优,包括修水、余干大棚,龙虎山、修水挂树附生及修水崖壁仿野生种植的铁皮石斛;第2类品质居中,包括龙虎山、余江、鄱阳大棚和广丰、横峰崖壁仿野生种植的铁皮石斛;第3类品质相对较差,包括德安大棚和德兴挂树附生种植的铁皮石斛。结论:通过主成分分析-聚类分析建立多指标、多成分铁皮石斛鲜品品质评价体系,有助于建立铁皮石斛鲜品品质评价标准和规格等级划分。 展开更多
关键词 铁皮石斛鲜品 性状 糖类成分 品质评价 相关性分析 主成分分析 聚类分析
下载PDF
大数据流式计算框架Storm的任务迁移策略 被引量:25
16
作者 鲁亮 于炯 +3 位作者 卞琛 刘月超 廖彬 李慧娟 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期71-92,共22页
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约... Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster,TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小. 展开更多
关键词 大数据 流式计算 STORM 通信开销 任务迁移
下载PDF
基于GraphX的传球网络构建及分析研究 被引量:9
17
作者 张陶 于炯 +4 位作者 廖彬 国冰磊 卞琛 王跃飞 刘炎 《计算机研究与发展》 EI CSCD 北大核心 2016年第12期2729-2752,共24页
虽然大数据技术在社交网络、金融、公共安全、医疗卫生等领域的应用不断成熟,但在竞技体育方面的应用还处于探索阶段.常规篮球统计中缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究.1)由于传球数据汇聚... 虽然大数据技术在社交网络、金融、公共安全、医疗卫生等领域的应用不断成熟,但在竞技体育方面的应用还处于探索阶段.常规篮球统计中缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究.1)由于传球数据汇聚形态为图,在传球数据获取、数据清洗及格式转化、Vertex与Edge表构建的基础上,通过GraphX构建传球网络图为其应用打下基础;2)提出PlayerRank值区分球员重要度、球员位置个性化图顶点等方法提高传球网络可视化质量;3)通过GraphX构建的传球网络分析传球数量与质量对比赛结果的影响,并例举了传球网络在球队传球数据分析、战术人员选择、临场战术制定、网络子图及游戏体验改进等方面的应用. 展开更多
关键词 大数据应用 传球网络 GraphX框架 PlayerRank算法 球员重要性
下载PDF
ODIC-DBSCAN:一种新的簇内孤立点分析算法 被引量:7
18
作者 王跃飞 于炯 +3 位作者 苏国平 钱育蓉 廖彬 刘粟 《自动化学报》 EI CSCD 北大核心 2019年第11期2107-2127,共21页
长期以来,孤立点的检测一直聚焦于簇边缘的离散点,当聚类后簇的数目低于实际数目,或孤立点被伪装在簇内的情况下,簇内孤立点的判定则会更加困难.为判定簇内孤立点,提出一种基于密度聚类DBSCAN (Density based spatial clustering of app... 长期以来,孤立点的检测一直聚焦于簇边缘的离散点,当聚类后簇的数目低于实际数目,或孤立点被伪装在簇内的情况下,簇内孤立点的判定则会更加困难.为判定簇内孤立点,提出一种基于密度聚类DBSCAN (Density based spatial clustering of application with noise)的簇内孤立点检测方法 ODIC-DBSCAN (Outlier detection of inner-cluster based on DBSCAN).首先在建立距离矩阵的基础上,通过半径获取策略得到针对该点集的k个有效半径Radius集合,并据此构造密度矩阵;然后建立点集覆盖模型,提出了相邻有效半径构造的覆盖多维体能够覆盖点集的思想,并通过拉格朗日乘子法求取最优的覆盖多维体数目之比,输出点比阈值组;最后重建ODIC-DBSCAN的孤立点检测方法,以簇发生融合现象作为算法终止的判定条件.实验通过模拟数据集,公开benchmark与UCI数据集共同验证了ODIC-DBSCAN算法,展示了聚类过程;分析了算法性能;并通过与其他聚类、孤立点判定方法的对比,验证了算法对簇内孤立点的判定效果. 展开更多
关键词 聚类 DBSCAN 簇内孤立点 密度关联 孤立点检测
下载PDF
基于图嵌入与支持向量机的社交网络节点分类方法 被引量:11
19
作者 张陶 于炯 +2 位作者 廖彬 余光雷 毕雪华 《计算机应用研究》 CSCD 北大核心 2021年第9期2646-2650,2661,共6页
针对无属性社交网络的节点分类问题,提出了一种基于图嵌入与支持向量机,利用社交网络中节点之间关系特征,对节点进行分类的方法。首先,通过DeepWalk、LINE等多种图嵌入模型挖掘节点隐含关系特征的同时,将高维的社交网络数据转换为低维em... 针对无属性社交网络的节点分类问题,提出了一种基于图嵌入与支持向量机,利用社交网络中节点之间关系特征,对节点进行分类的方法。首先,通过DeepWalk、LINE等多种图嵌入模型挖掘节点隐含关系特征的同时,将高维的社交网络数据转换为低维embedding向量。其次,提取节点度、聚集系数、PageRank值等特征信息,组合构成节点的特征向量。然后,利用支持向量机构建节点分类预测模型对节点进行分类预测。最后,在三个公开的社交网络数据集上实验,与对比方法相比,提出的方法在社交网络节点分类任务中能取得更好的分类效果。 展开更多
关键词 社交网络 节点分类 图嵌入 支持向量机 隐含关系特征
下载PDF
基于分配适应度的Spark渐进填充分区映射算法 被引量:5
20
作者 卞琛 于炯 +3 位作者 修位蓉 廖彬 英昌甜 钱育蓉 《通信学报》 EI CSCD 北大核心 2017年第9期133-147,共15页
分析Spark的作业执行机制,建立了执行效率模型和Shuffle过程模型,给出了分配适应度(AFD,allocation fitness degree)的定义,提出了算法的优化目标。根据模型的相关定义求解,设计了渐进填充分区映射算法(PFPM,progressive filling partit... 分析Spark的作业执行机制,建立了执行效率模型和Shuffle过程模型,给出了分配适应度(AFD,allocation fitness degree)的定义,提出了算法的优化目标。根据模型的相关定义求解,设计了渐进填充分区映射算法(PFPM,progressive filling partitioning and mapping algorithm),通过扩展式分区和渐进填充映射,建立适应Reducer计算能力的数据分配方案,有效缩减Shuffle过程的同步延时,提高集群计算效率。实验表明该算法提高了Shuffle过程数据分配的合理性,优化了并行计算框架Spark的作业执行效率。 展开更多
关键词 并行计算 SPARK 渐进填充 分区映射 分配适应度
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部