期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
安全云环境中基于Minhash函数的多关键字检索方案 被引量:4
1
作者 陆海虹 李欣 《科学技术与工程》 北大核心 2015年第1期89-95,共7页
为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去;然而,外包数据可能含有需要防护的敏感数据;而云提供商并不能可靠满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权机构... 为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去;然而,外包数据可能含有需要防护的敏感数据;而云提供商并不能可靠满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权机构的破坏。提出了一种基于Minhash函数的高效加密云数据隐私保护多关键字检索方法;该方法根据数据所有者生成并外包给云服务器的加密可检索索引进行加密云检索。已知检索内容后,服务器采用tf-idf加权法将检索内容与可检索索引相比较,除了鉴于隐私因素可被泄露的信息外,不需其他信息即可返回结果。基于公开的Enron数据集的仿真实验结果表明,该方法可保证用户只会检索到最相关的条目,不会对用户造成不必要的通信和计算负担。另外,在检索精度方面,也要优于现有的方法。 展开更多
关键词 云服务 minhash函数 隐私保护 检索 tf-idf加权法 检索精度
下载PDF
分布式平台下MinHash算法研究与实现 被引量:5
2
作者 王洪亚 吴西送 +1 位作者 任建军 赵银龙 《智能计算机与应用》 2014年第6期44-46,共3页
MinHash作为位置敏感哈希(LSH)算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算法使用Jaccard相似度来度量对象的相似程度。本文针对MinHash算法在分布式平台上的实现和性能表现进行分... MinHash作为位置敏感哈希(LSH)算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算法使用Jaccard相似度来度量对象的相似程度。本文针对MinHash算法在分布式平台上的实现和性能表现进行分析和研究,给出了MinHash的分布式算法。最后通过具体的实验,验证了提出的MinHash算法在处理实际问题上的正确性和准确性。 展开更多
关键词 minhash 分布式 算法实现
下载PDF
基于Minhash的协同过滤技术在推荐系统中的应用
3
作者 刘艾侠 刘丹丹 《微型电脑应用》 2017年第10期67-70,共4页
传统协同过滤的推荐机制应用在大规模数据上时,如果在要保证推荐质量会导致占用运行时间和存储空间的增加。研究分析了Minhash在大规模数据上的降维原理,论证了将minhash应用到协同过滤,设计并实现基于Minhash算法的协同过滤模型。实验... 传统协同过滤的推荐机制应用在大规模数据上时,如果在要保证推荐质量会导致占用运行时间和存储空间的增加。研究分析了Minhash在大规模数据上的降维原理,论证了将minhash应用到协同过滤,设计并实现基于Minhash算法的协同过滤模型。实验结果表明Minhash能在保证推荐质量的前提下很大程度上缩短计算时间和存储空间,能有效地扩展到大规模数据集。 展开更多
关键词 协同过滤 大规模数据集 minhash
下载PDF
一种基于MinHash的改进新闻文本聚类算法 被引量:4
4
作者 王安瑾 《计算机技术与发展》 2019年第2期39-42,共4页
信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资... 信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题,该算法使用Min Hash对所有文本的文本特征词集合进行降维,从而有效减少了资源的浪费。对新得到的特征矩阵中的数据任意两两计算Jaccard系数,将每一个结果与DBSCAN聚类中给定的邻域半径Eps进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts,由此可以判断该文本是否为核心点,是否可以形成簇。实验结果表明,该方法对于新闻文本聚类有着很好的效果,可以对网络上错综复杂的新闻文本进行有效的聚类。 展开更多
关键词 minhash Jaccard系数 DBSCAN 文本聚类
下载PDF
MR-GSpar:一种基于MapReduce的大图稀疏化算法 被引量:5
5
作者 陈德华 周蒙 +1 位作者 孙延青 郑亮亮 《计算机科学》 CSCD 北大核心 2013年第10期190-193,212,共5页
图的稀疏化是图聚类分析中数据预处理的关键操作,已得到广泛的关注。针对图数据日益普及、规模不断增大的现状,提出了一种基于MapReduce的面向大规模图的稀疏化算法,即MR-GSpar算法。该算法在MapReduce并行计算框架的基础上,通过对传统... 图的稀疏化是图聚类分析中数据预处理的关键操作,已得到广泛的关注。针对图数据日益普及、规模不断增大的现状,提出了一种基于MapReduce的面向大规模图的稀疏化算法,即MR-GSpar算法。该算法在MapReduce并行计算框架的基础上,通过对传统的最小哈希(Minhash)算法的并行化改造,使其可在分布式的集群环境中实现对大规模图数据的高效稀疏化处理。真实数据集上的实验表明了该算法的可行性与有效性。 展开更多
关键词 图稀疏化 minhash MAPREDUCE框架 MR-GSpar算法
下载PDF
一种基于Hadoop的文本相似度仿真检测模型 被引量:3
6
作者 吴云 许抗震 黄瑞章 《新疆大学学报(自然科学版)》 CAS 北大核心 2017年第3期308-315,共8页
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和... 随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性. 展开更多
关键词 文本相似 minhash Shingling HADOOP
下载PDF
基于资源签名的Android应用相似性快速检测方法 被引量:2
7
作者 张鹏 牛少彰 黄如强 《电子学报》 EI CAS CSCD 北大核心 2019年第9期1913-1918,共6页
由于盗版Android应用(Android Application,简称APP)通常保持着与正版APP相似的用户体验,因此本文提出一种基于资源签名的APP相似性快速检测方法.该方法将APP的资源签名视为字符串集合,利用计算任意一对APP资源签名集合的Jaccard系数判... 由于盗版Android应用(Android Application,简称APP)通常保持着与正版APP相似的用户体验,因此本文提出一种基于资源签名的APP相似性快速检测方法.该方法将APP的资源签名视为字符串集合,利用计算任意一对APP资源签名集合的Jaccard系数判断两者的相似性.为了避免遍历全部的APP对,该方法将MinHash和LSH(Locality Sensitive Hashing)[JP2]算法的思路引入其中,通过从APP集合中挑选候选对并对候选对进行检验的方式获得最终的检测结果.由于挑选候选对的方式将大量相似性较低的APP对排除在外,因此该方法可以明显地提高APP相似性的检测速度.实验结果表明,该方法的检测速度比现有方法FSquaDRA提高了大约30倍,而检测结果与FSquaDRA几乎完全相同. 展开更多
关键词 APP相似性 资源签名 minhash LSH Jaccard系数
下载PDF
安全云环境中一种改进的多关键字检索方案
8
作者 郭秋滟 《计算机应用与软件》 CSCD 2016年第4期103-107,168,共6页
为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去。然而,外包数据可能含有需要防护的敏感数据,而云提供商并不能可靠地满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权... 为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去。然而,外包数据可能含有需要防护的敏感数据,而云提供商并不能可靠地满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权机构的破坏。针对该问题,提出一种基于minhash函数的高效加密云数据隐私保护多关键字检索方法。该方法根据数据所有者生成并外包给云服务器的加密可检索索引进行加密云检索。已知检索内容后,服务器采用tf-idf加权法将检索内容与可检索索引相比较,除了鉴于隐私因素可被泄露的信息外,不需其他信息即可返回结果。基于公开的Enron数据集的仿真实验结果表明,该方法可保证用户只会检索到最相关的条目,不会对用户造成不必要的通信和计算负担。另外,在检索精度方面,也要优于现有的方法。 展开更多
关键词 云服务 minhash函数 隐私保护 检索 tf-idf加权法 检索精度
下载PDF
大规模数据的集合相似度估计研究进展 被引量:1
9
作者 何安娜 陈华辉 《无线通信技术》 2017年第4期1-5,共5页
相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距离的Sim Hash算法,它们是两种常用的大规模数据相似度度量技术。此外,还有基于集合包含度下的集合相... 相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距离的Sim Hash算法,它们是两种常用的大规模数据相似度度量技术。此外,还有基于集合包含度下的集合相似度估计算法。通过总结多篇已发表论文,详细地回顾了不同的相似度度量方式下的集合相似度估计方法。 展开更多
关键词 相似度估计 minhash 相似性检索 集合 SimHash
下载PDF
面向Top-k快速查询的层次化LSH索引方法
10
作者 罗雄才 高军 《计算机研究与发展》 EI CSCD 北大核心 2015年第S1期56-63,共8页
局部敏感哈希(locality sensitive hashing,LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的数据对.但是,由于需要设置固定阈值,LSH无法直接处理Top-k相似查询.传统LSH索引算法需要设置一系列阈值,... 局部敏感哈希(locality sensitive hashing,LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的数据对.但是,由于需要设置固定阈值,LSH无法直接处理Top-k相似查询.传统LSH索引算法需要设置一系列阈值,分别建立索引,时间和空间代价较大.提出了一种层次化的LSH索引算法,通过动态构建层次化相似度图,充分利用三角不等式,减少不必要的索引构建代价.具体来讲,首先通过高阈值构建相似度图,将高度相似的数据点抽象成"超点",再在"超点"上构建低阈值的相似度图.查询时,首先查询高阈值相似度图;数量不足时再查询低阈值相似度图.实验表明,相比传统LSH算法,本文方法在构建索引的时间和空间代价上减小一个数量级,查询更加高效. 展开更多
关键词 层次化局部敏感哈希 minhash TOP-K查询 相似度图 三角不等式
下载PDF
基于分布式集群环境的图聚类信息高效处理方案
11
作者 刘娟娟 丁嘉宁 《计算机应用与软件》 CSCD 2016年第2期217-222,共6页
针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,设计出一种基于并行计算的高效率图聚类信息处理方案。通过对Minhash算法以MapReduce架构理论进行改进,使其实现对数据的并行化分析处理,以确保其... 针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,设计出一种基于并行计算的高效率图聚类信息处理方案。通过对Minhash算法以MapReduce架构理论进行改进,使其实现对数据的并行化分析处理,以确保其能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。通过相关实验表明,该方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。 展开更多
关键词 人工智能 数据挖掘MapReduce 图聚类minhash
下载PDF
基于并行计算的高效图稀疏化处理算法
12
作者 李融 《四川理工学院学报(自然科学版)》 CAS 2015年第2期45-51,共7页
针对目前的图聚类分析方法存在的不足,在分析研究MapReduce架构理论、最小哈希算法以及图聚类分析中的数据抽样和稀疏化处理机制的基础上,提出了一种基于并行计算的高效的图稀疏化处理算法。该方法以MapReduce架构理论为基础,通过Minhas... 针对目前的图聚类分析方法存在的不足,在分析研究MapReduce架构理论、最小哈希算法以及图聚类分析中的数据抽样和稀疏化处理机制的基础上,提出了一种基于并行计算的高效的图稀疏化处理算法。该方法以MapReduce架构理论为基础,通过Minhash算法进行并行化分析,利用MapReduce框架结构对图聚类分析稀疏化操作过程中的多个任务进行了高效的推算分析与处理,并在Hadoop计算环境下,通过模拟实验对提出的高效图稀疏化处理算法的性能进行了测试。测试结果表明:基于并行计算的高效图稀疏化处理算法可行,能对图聚类数据信息进行快速稀疏化处理。 展开更多
关键词 MAPREDUCE minhash 图聚类分析 数据抽样 并行计算
下载PDF
分布式集群环境下基于并行计算的图聚类信息高效处理方案 被引量:2
13
作者 张博 《自动化技术与应用》 2016年第3期29-35,67,共8页
针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,提出一种基于并行计算的高效率图聚类信息处理方案。在分布式集群计算环境下对超大规模、超大区域范围图数据信息的稀疏化分析与处理机制上,通过对M... 针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,提出一种基于并行计算的高效率图聚类信息处理方案。在分布式集群计算环境下对超大规模、超大区域范围图数据信息的稀疏化分析与处理机制上,通过对Minhash算法以Map Reduce架构理论进行改进,使其实现对数据的并行化分析处理,确保能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。实验表明,改进方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。 展开更多
关键词 人工智能 数据挖掘 映射规约 图聚类 最小哈希算法
下载PDF
Probabilistic, Statistical and Algorithmic Aspects of the Similarity of Texts and Application to Gospels Comparison
14
作者 Soumaila Dembele Gane Samb Lo 《Journal of Data Analysis and Information Processing》 2015年第4期112-127,共16页
The fundamental problem of similarity studies, in the frame of data-mining, is to examine and detect similar items in articles, papers, and books with huge sizes. In this paper, we are interested in the probabilistic,... The fundamental problem of similarity studies, in the frame of data-mining, is to examine and detect similar items in articles, papers, and books with huge sizes. In this paper, we are interested in the probabilistic, and the statistical and the algorithmic aspects in studies of texts. We will be using the approach of k-shinglings, a k-shingling being defined as a sequence of k consecutive characters that are extracted from a text (k ≥ 1). The main stake in this field is to find accurate and quick algorithms to compute the similarity in short times. This will be achieved in using approximation methods. The first approximation method is statistical and, is based on the theorem of Glivenko-Cantelli. The second is the banding technique. And the third concerns a modification of the algorithm proposed by Rajaraman et al. ([1]), denoted here as (RUM). The Jaccard index is the one being used in this paper. We finally illustrate these results of the paper on the four Gospels. The results are very conclusive. 展开更多
关键词 SIMILARITY Web MINING Jaccard SIMILARITY RU Algorithm minhashing Data MINING Shingling Bible’s GOSPELS Glivenko-Cantelli EXPECTED SIMILARITY STATISTICAL Estimation
下载PDF
基于信号指纹的地磁异常识别算法 被引量:5
15
作者 徐鹏深 滕云田 +3 位作者 于子叶 王晓美 吴琼 胡星星 《地震学报》 CSCD 北大核心 2018年第1期79-88,共10页
本文基于信号指纹技术,通过研究短时(<10 min)地磁异常数据识别算法,完成了对地磁干扰信号类型的识别。本文所用信号指纹技术结合了短时傅里叶变换、小波变换、信号二值化、文本相似性哈希等多种数据和文本处理方法,将一定时间内的... 本文基于信号指纹技术,通过研究短时(<10 min)地磁异常数据识别算法,完成了对地磁干扰信号类型的识别。本文所用信号指纹技术结合了短时傅里叶变换、小波变换、信号二值化、文本相似性哈希等多种数据和文本处理方法,将一定时间内的波形数据转换为一个32位的整型数字,极大地压缩了信号的特征信息,因此在很大程度上减少了后续查找与分类过程中所需处理的数据。利用该算法对河北红山地磁台2016年5月1—3日两套GM4磁通门磁力仪的原始秒数据的计算结果表明,本文算法可以快速准确地识别干扰信号类型,为实现地磁相对观测数据中异常信号的自动提取提供技术支撑。 展开更多
关键词 短周期异常 信号指纹 文本相似性哈希
下载PDF
一种高效的分布式相似短文本聚类算法 被引量:4
16
作者 原默晗 唐晋韬 王挺 《计算机与数字工程》 2016年第5期895-900,943,共7页
近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效... 近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效的短文本聚类方法。该方法通过将文本表示成连续短字符串集合,并应用最小哈希将集合简化成一组由数字组成的文本签名,通过局部敏感哈希算法得到符合相似度条件的文本聚类。为了适应网络信息规模大的特点,论文进一步利用Apache Spark集群计算框架对聚类算法进行了并行化,提高了数据处理的效率,并分析了影响算法性能的因素。 展开更多
关键词 文本聚类 最小哈希 局部敏感哈希 shingling SPARK
下载PDF
基于最小哈希的重复数据清洗方法 被引量:4
17
作者 张荃 陈晖 《通信技术》 2019年第11期2653-2658,共6页
大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码... 大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐。我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据。仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率。 展开更多
关键词 重复数据 数据清洗 Jaccard相似度 最小哈希
下载PDF
基于区块链的真实世界数据共享系统研究 被引量:1
18
作者 刘尚麟 廖思捷 +1 位作者 杨春霞 范佳 《信息安全研究》 2022年第1期49-54,共6页
针对真实世界大数据应用,以区块链为基础设施,构建支持数据溯源、隐私保护、以患者为中心的数据共享平台,开发了原型系统,进行了关键算法验证.基于最小哈希的局部敏感哈希的非标注数据溯源技术,结合区块链,实现数据来源可追溯可信可验证... 针对真实世界大数据应用,以区块链为基础设施,构建支持数据溯源、隐私保护、以患者为中心的数据共享平台,开发了原型系统,进行了关键算法验证.基于最小哈希的局部敏感哈希的非标注数据溯源技术,结合区块链,实现数据来源可追溯可信可验证;设计专门的隐私保护隔离区,采用容器和虚拟机双层隔离保护机制,程序将加密发布的真实世界数据下载到隔离区内,解密后分析处理,用后解密明文立刻销毁,实现数据隐私保护;同时使用区块链、控制流图、最小哈希、局部敏感哈希等技术登记分析程序指纹,进行计算程序身份安全验证. 展开更多
关键词 区块链 真实世界数据 控制流图 局部敏感哈希 最小哈希
下载PDF
融合结构与属性相似性的加权图聚集算法
19
作者 邴睿 马慧芳 +1 位作者 刘宇航 余丽 《计算机工程与科学》 CSCD 北大核心 2019年第10期1777-1784,共8页
图聚集技术是将一个大规模图用简洁的小规模图来表示,同时保留原始图的结构和属性信息的技术。现有算法未同时考虑节点的属性信息与边的权重信息,导致图聚集后与原始图存在较大差异。因此,提出一种同时考虑节点属性信息与边权重信息的... 图聚集技术是将一个大规模图用简洁的小规模图来表示,同时保留原始图的结构和属性信息的技术。现有算法未同时考虑节点的属性信息与边的权重信息,导致图聚集后与原始图存在较大差异。因此,提出一种同时考虑节点属性信息与边权重信息的图聚集算法,使得聚集图既保留了节点属性相似度又保留了边权重信息。该算法首先定义了闭邻域结构相似度,通过一种剪枝策略来计算节点之间的结构相似度;其次使用最小哈希(MinHash)技术计算节点之间的属性相似度,并调节结构相似与属性相似所占的比例;最后,根据2方面相似度的大小对加权图进行聚集。实验表明了该算法可行且有效。 展开更多
关键词 图聚集 结构相似度 属性相似度 加权图 最小哈希
下载PDF
一种基于局部敏感哈希的文本数据去重算法及其实现
20
作者 申峻宇 李东闻 +1 位作者 钟震宇 张玉志 《南开大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期29-35,共7页
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据... 预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率.实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率. 展开更多
关键词 文本去重 最小哈希 局部敏感哈希
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部