期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于非均衡局部敏感哈希的并行文本分类研究
1
作者 赵彤 刘斌 李涛 《微电子学与计算机》 CSCD 北大核心 2017年第12期67-73,共7页
针对KNN分类算法在面对海量文本处理时效率低下的问题,提出了一种基于超平面的非均衡局部敏感哈希分类算法,该分类算法相比于传统的局部敏感哈希算法在提高分类的准确性和实时性上有显著的效果.同时,为了进一步降低分类算法的执行时间,... 针对KNN分类算法在面对海量文本处理时效率低下的问题,提出了一种基于超平面的非均衡局部敏感哈希分类算法,该分类算法相比于传统的局部敏感哈希算法在提高分类的准确性和实时性上有显著的效果.同时,为了进一步降低分类算法的执行时间,提高分类效率,将该分类算法与Spark并行计算模型结合,在大数据处理平台Hadoop上实现了一种高效的并行文本分类系统.实验结果表明,所设计的文本分类系统在具有较高分类速度的同时保持了较高的分类准确性. 展开更多
关键词 knn非均衡局部敏感哈希 HADOOP SPARK
下载PDF
基于余弦距离的局部敏感哈希的KNN算法在中文文本上的快速分类 被引量:3
2
作者 戴上平 冯鹏 +1 位作者 刘盛英杰 舒红 《计算机工程与科学》 CSCD 北大核心 2015年第10期1971-1976,共6页
文本分类是文本挖掘中最重要的研究内容之一。为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类。同时结合文本数据的特性... 文本分类是文本挖掘中最重要的研究内容之一。为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类。同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验。在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多。 展开更多
关键词 文本分类 局部敏感哈希 TF—IDF knn 布尔向量
下载PDF
分布式结构化P2P网络下局部敏感哈希快速检索的负载均衡 被引量:1
3
作者 齐向东 刘大伟 王劲林 《高技术通讯》 CAS CSCD 北大核心 2013年第12期1213-1218,共6页
研究了分布式哈希表(DHT)结构化P2P网络下,采用局部敏感哈希(LSH)方法进行相似检索时的负载均衡问题。考虑到LSH方法在高维空间下可以有效地进行K近邻检索,近年来LSH逐渐扩展到DHT分布式P2P网络下处理分布式相似检索问题,提出了一种采... 研究了分布式哈希表(DHT)结构化P2P网络下,采用局部敏感哈希(LSH)方法进行相似检索时的负载均衡问题。考虑到LSH方法在高维空间下可以有效地进行K近邻检索,近年来LSH逐渐扩展到DHT分布式P2P网络下处理分布式相似检索问题,提出了一种采用虚拟节点方式管理多维度LSH桶空间的方法,将服从特定分布的多维LSH桶空间映射到DHT命名空间,以更好的负载均衡效果降低分布式环境下快速检索的性能损耗,优化查询效率。进而,以Chord结构为例,提出了基于虚拟节点的负载均衡具体算法。与其他方法相比,该方法能有效地改善节点负载均衡。通过实验验证了该方法的有效性。 展开更多
关键词 负载均衡 分布式哈希表(DHT) 局部敏感哈希(LSH) 虚节点 分布式相似检索
下载PDF
集中式环境下的局部敏感哈希算法综述 被引量:1
4
作者 刘根平 《移动通信》 2015年第10期46-51,共6页
局部敏感哈希算法是一种很流行的高维相似性查找算法。通过总结多篇已发表论文,介绍了集中式环境下的局部敏感哈希算法及其实现,分析了各种局部敏感哈希算法的特点和优缺点。在近似最近邻查询中的广泛应用证实了局部敏感哈希算法的有效性。
关键词 高维数据 相似性搜索 knn查询 局部敏感哈希算法
下载PDF
快速非局部均值的CT图像去噪算法 被引量:1
5
作者 康长青 曹文平 +2 位作者 方磊 华丽 程虹 《南方医科大学学报》 CAS CSCD 北大核心 2012年第11期1606-1609,共4页
针对CT图像的单一色彩性,利用已有的医疗档案图像,提出一种快速非局部均值的图像去噪算法。算法分预处理阶段和实际处理阶段。预处理阶段采用位置敏感性哈希的数据结构建立图像的样本邻域数据库。在实际处理阶段,利用位置敏感性的快速... 针对CT图像的单一色彩性,利用已有的医疗档案图像,提出一种快速非局部均值的图像去噪算法。算法分预处理阶段和实际处理阶段。预处理阶段采用位置敏感性哈希的数据结构建立图像的样本邻域数据库。在实际处理阶段,利用位置敏感性的快速检索结果,采用NLM算法进行图像去噪。实验表明,与NLM相比,提出的算法能大大节约计算时间,而且能够有效保存图像边缘和细节。 展开更多
关键词 局部均值 样本邻域 位置敏感哈希 CT图像
下载PDF
面向非独立同分布数据的联邦梯度提升决策树 被引量:1
6
作者 赵雪 李晓会 《计算机应用研究》 CSCD 北大核心 2023年第7期2184-2191,共8页
随着联邦学习的不断兴起,梯度提升决策树(GBDT)作为一种传统的机器学习方法,逐渐应用于联邦学习中以达到理想的分类效果。针对现有GBDT的横向联邦学习模型,存在精度受非独立同分布数据的影响较大、信息泄露和通信成本高等问题,提出了一... 随着联邦学习的不断兴起,梯度提升决策树(GBDT)作为一种传统的机器学习方法,逐渐应用于联邦学习中以达到理想的分类效果。针对现有GBDT的横向联邦学习模型,存在精度受非独立同分布数据的影响较大、信息泄露和通信成本高等问题,提出了一种面向非独立同分布数据的联邦梯度提升决策树(federated GBDT for non-IID dataset,nFL-GBDT)。首先,采用局部敏感哈希(LSH)来计算各个参与方之间的相似样本,通过加权梯度来构建第一棵树。其次,由可靠第三方计算只需要一轮通信的全局叶权重来更新树模型。最后,实验分析表明了该算法能够实现对原始数据的隐私保护,并且通信成本低于simFL和FederBoost。同时,实验按照不平衡比率来划分三组公共的数据集,结果表明该算法与Individual、TFL及F-GBDT-G相比,准确率分别提升了3.53%、5.46%和4.43%。 展开更多
关键词 联邦学习 梯度提升决策树 独立同分布 局部敏感哈希
下载PDF
基于临界点动态调整的可扩展哈希索引算法
7
作者 陈茂乾 樊皓楠 +1 位作者 郑锦 胡海苗 《中国科技论文》 北大核心 2017年第20期2331-2336,共6页
提出了1种基于临界点动态调整的可扩展哈希索引算法,通过设置哈希桶容量限制,解决索引在动态非均匀数据集中表现不稳定的问题,以实现索引可扩展;通过提出1种临界点动态调整方法,解决数据点的随机偏移问题,以提高算法的稳定性。将所提算... 提出了1种基于临界点动态调整的可扩展哈希索引算法,通过设置哈希桶容量限制,解决索引在动态非均匀数据集中表现不稳定的问题,以实现索引可扩展;通过提出1种临界点动态调整方法,解决数据点的随机偏移问题,以提高算法的稳定性。将所提算法分别在2个真实数据集和1个合成数据集上与当前主流算法进行比较。结果表明,所提算法不仅可提升检索准确率,并且具有较好的鲁棒性。 展开更多
关键词 局部敏感哈希 容量限制 均匀数据集 动态调整
下载PDF
M2LSH:基于LSH的高维数据近似最近邻查找算法 被引量:4
8
作者 李灿 钱江波 +1 位作者 董一鸿 陈华辉 《电子学报》 EI CAS CSCD 北大核心 2017年第6期1431-1442,共12页
在许多应用中,LSH(Locality Sensitive Hashing)以及各种变体,是解决近似最近邻问题的有效算法之一.虽然这些算法能够很好地处理分布比较均匀的高维数据,但从设计方案来看,都没有针对数据分布不均匀的情况做相应的优化.针对这一问题,本... 在许多应用中,LSH(Locality Sensitive Hashing)以及各种变体,是解决近似最近邻问题的有效算法之一.虽然这些算法能够很好地处理分布比较均匀的高维数据,但从设计方案来看,都没有针对数据分布不均匀的情况做相应的优化.针对这一问题,本文提出了一种新的基于LSH的解决方案(M2LSH,2 Layers Merging LSH),对于数据分布不均匀的情况依然能得到一个比较好的查询效果.首先,将数据存放到具有计数功能的组合哈希向量表示的哈希桶中,然后通过二次哈希将这些桶号投影到一维空间,在此空间根据各个桶中存放的数据个数合并相邻哈希桶,使得新哈希桶中的数据量能够大致均衡.查询时仅访问有限个哈希桶,就能找到较优结果.本文给出了详细的理论分析,并通过实验验证了M2LSH的性能,不仅能减少访问时间,也可提高结果的正确率. 展开更多
关键词 近似最近邻 knn查询 局部敏感哈希 高维数据
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部