期刊文献+
共找到185篇文章
< 1 2 10 >
每页显示 20 50 100
An Online Malicious Spam Email Detection System Using Resource Allocating Network with Locality Sensitive Hashing
1
作者 Siti-Hajar-Aminah Ali Seiichi Ozawa +2 位作者 Junji Nakazato Tao Ban Jumpei Shimamura 《Journal of Intelligent Learning Systems and Applications》 2015年第2期42-57,共16页
In this paper, we propose a new online system that can quickly detect malicious spam emails and adapt to the changes in the email contents and the Uniform Resource Locator (URL) links leading to malicious websites by ... In this paper, we propose a new online system that can quickly detect malicious spam emails and adapt to the changes in the email contents and the Uniform Resource Locator (URL) links leading to malicious websites by updating the system daily. We introduce an autonomous function for a server to generate training examples, in which double-bounce emails are automatically collected and their class labels are given by a crawler-type software to analyze the website maliciousness called SPIKE. In general, since spammers use botnets to spread numerous malicious emails within a short time, such distributed spam emails often have the same or similar contents. Therefore, it is not necessary for all spam emails to be learned. To adapt to new malicious campaigns quickly, only new types of spam emails should be selected for learning and this can be realized by introducing an active learning scheme into a classifier model. For this purpose, we adopt Resource Allocating Network with Locality Sensitive Hashing (RAN-LSH) as a classifier model with a data selection function. In RAN-LSH, the same or similar spam emails that have already been learned are quickly searched for a hash table in Locally Sensitive Hashing (LSH), in which the matched similar emails located in “well-learned” are discarded without being used as training data. To analyze email contents, we adopt the Bag of Words (BoW) approach and generate feature vectors whose attributes are transformed based on the normalized term frequency-inverse document frequency (TF-IDF). We use a data set of double-bounce spam emails collected at National Institute of Information and Communications Technology (NICT) in Japan from March 1st, 2013 until May 10th, 2013 to evaluate the performance of the proposed system. The results confirm that the proposed spam email detection system has capability of detecting with high detection rate. 展开更多
关键词 MALICIOUS SPAM EMAIL Detection System INCREMENTAL Learning Resource Allocating Network locality sensitive hashing
下载PDF
Improved locality-sensitive hashing method for the approximate nearest neighbor problem
2
作者 陆颖华 马廷淮 +3 位作者 钟水明 曹杰 王新 Abdullah Al-Dhelaane 《Chinese Physics B》 SCIE EI CAS CSCD 2014年第8期217-225,共9页
In recent years, the nearest neighbor search (NNS) problem has been widely used in various interesting applications. Locality-sensitive hashing (LSH), a popular algorithm for the approximate nearest neighbor probl... In recent years, the nearest neighbor search (NNS) problem has been widely used in various interesting applications. Locality-sensitive hashing (LSH), a popular algorithm for the approximate nearest neighbor problem, is proved to be an efficient method to solve the NNS problem in the high-dimensional and large-scale databases. Based on the scheme of p-stable LSH, this paper introduces a novel improvement algorithm called randomness-based locality-sensitive hashing (RLSH) based on p-stable LSH. Our proposed algorithm modifies the query strategy that it randomly selects a certain hash table to project the query point instead of mapping the query point into all hash tables in the period of the nearest neighbor query and reconstructs the candidate points for finding the nearest neighbors. This improvement strategy ensures that RLSH spends less time searching for the nearest neighbors than the p-stable LSH algorithm to keep a high recall. Besides, this strategy is proved to promote the diversity of the candidate points even with fewer hash tables. Experiments are executed on the synthetic dataset and open dataset. The results show that our method can cost less time consumption and less space requirements than the p-stable LSH while balancing the same recall. 展开更多
关键词 approximate nearest neighbor problem locality-sensitive hashing
下载PDF
Short-term local prediction of wind speed and wind power based on singular spectrum analysis and locality-sensitive hashing 被引量:11
3
作者 Ling LIU Tianyao JI +2 位作者 Mengshi LI Ziming CHEN Qinghua WU 《Journal of Modern Power Systems and Clean Energy》 SCIE EI 2018年第2期317-329,共13页
With the growing penetration of wind power in power systems, more accurate prediction of wind speed and wind power is required for real-time scheduling and operation. In this paper, a novel forecast model for shortter... With the growing penetration of wind power in power systems, more accurate prediction of wind speed and wind power is required for real-time scheduling and operation. In this paper, a novel forecast model for shortterm prediction of wind speed and wind power is proposed,which is based on singular spectrum analysis(SSA) and locality-sensitive hashing(LSH). To deal with the impact of high volatility of the original time series, SSA is applied to decompose it into two components: the mean trend,which represents the mean tendency of the original time series, and the fluctuation component, which reveals the stochastic characteristics. Both components are reconstructed in a phase space to obtain mean trend segments and fluctuation component segments. After that, LSH is utilized to select similar segments of the mean trend segments, which are then employed in local forecasting, so that the accuracy and efficiency of prediction can be enhanced. Finally, support vector regression is adopted forprediction, where the training input is the synthesis of the similar mean trend segments and the corresponding fluctuation component segments. Simulation studies are conducted on wind speed and wind power time series from four databases, and the final results demonstrate that the proposed model is more accurate and stable in comparison with other models. 展开更多
关键词 WIND power WIND speed locality-sensitive hashing(lsh) SINGULAR spectrum analysis(SSA) local forecast Support vector regression(SVR)
原文传递
基于LSH的时间子序列查询算法 被引量:6
4
作者 汤春蕾 董家麒 《计算机学报》 EI CSCD 北大核心 2012年第11期2228-2236,共9页
子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询.现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下.文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极... 子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询.现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下.文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极大提高相似性查询的效率;在此基础上,给出一种DS-Index索引结构,利用距离下界进行剪枝,进而还提出了两种优化的OLSH-Range和OLSH-kNN算法.实验是在真实的股票序列集上进行的,数据结果表明算法能快速精确地找出相似性查询结果. 展开更多
关键词 相似性查询 时间序列数据库 子序列 lsh 索引
下载PDF
基于LSH的中文文本快速检索 被引量:13
5
作者 蔡衡 李舟军 +1 位作者 孙健 李洋 《计算机科学》 CSCD 北大核心 2009年第8期201-204,230,共5页
目前,高维数据的快速检索问题已经受到越来越多的关注。当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检... 目前,高维数据的快速检索问题已经受到越来越多的关注。当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检索问题,因而受到国内外学术界的高度关注。首先介绍了LSH算法的基本原理和方法,然后使用多重探测的方法对二进制向量的LSH算法做了进一步改进。最后实现了这两种LSH算法,并通过详细的实验验证表明:在改进后的算法中,通过增加偏移量可以提高检索的召回率,而在不提高时间复杂度的情况下则可降低空间复杂度。 展开更多
关键词 高维数据 相似性检索 位置敏感的哈希 近邻 多重探测
下载PDF
基于p-stable LSH的多点地质统计建模算法 被引量:6
6
作者 喻思羽 李少华 +3 位作者 王端平 王军 张以根 于金彪 《石油学报》 EI CAS CSCD 北大核心 2017年第12期1425-1433,共9页
SIMPAT将图像重建思想引进储层地质建模领域,借助于弱化概率的相似性判别指标,用最相似地质模式替换待估点处的数据事件完成预测。当模型较大且数据样式较多时,海量的数据样式相似度计算使得SIMPAT的计算效率较低。为了有效平衡多点地... SIMPAT将图像重建思想引进储层地质建模领域,借助于弱化概率的相似性判别指标,用最相似地质模式替换待估点处的数据事件完成预测。当模型较大且数据样式较多时,海量的数据样式相似度计算使得SIMPAT的计算效率较低。为了有效平衡多点地质统计建模算法效率和内存的矛盾,基于SIMPAT算法,提出基于p-stable局部敏感哈希的多点地质统计建模算法LSHSIM,该方法使用局部敏感哈希将数据样式的特征向量映射到哈希表。建模时从哈希表里取出与数据事件的特征向量具有相同哈希值的数据样式,用最相似的数据样式替换覆盖待估区的数据事件完成建模。利用实例对比新算法与SIMPAT等现有方法的结果表明,LSHSIM算法计算效率高,并节省了内存空间,对算法的关键参数进行了敏感性分析、非条件和条件模拟,能较好再现训练图像的先验地质模式。 展开更多
关键词 储层建模 局部敏感哈希 SIMPAT 多点地质统计学 训练图像
下载PDF
云环境下基于LSH的分布式数据流聚类算法 被引量:3
7
作者 曲武 王莉军 韩晓光 《计算机科学》 CSCD 北大核心 2014年第11期195-202,共8页
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流... 近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流聚类分析是当前数据流挖掘研究的热点问题。单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性。为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式。通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势。 展开更多
关键词 数据流聚类 位置敏感哈希方法 Map-Reduce框架 DLCStream算法
下载PDF
基于E^2LSH-MKL的视觉语义概念检测 被引量:3
8
作者 张瑞杰 郭志刚 +1 位作者 李弼程 高毫林 《自动化学报》 EI CSCD 北大核心 2012年第10期1671-1678,共8页
多核学习方法(Multiple kernel learning,MKL)在视觉语义概念检测中有广泛应用,但传统多核学习大都采用线性平稳的核组合方式而无法准确刻画复杂的数据分布.本文将精确欧氏空间位置敏感哈希(Exact Euclidean locality sensitivehashing,... 多核学习方法(Multiple kernel learning,MKL)在视觉语义概念检测中有广泛应用,但传统多核学习大都采用线性平稳的核组合方式而无法准确刻画复杂的数据分布.本文将精确欧氏空间位置敏感哈希(Exact Euclidean locality sensitivehashing,E2LSH)算法用于聚类,结合非线性多核组合方法的优势,提出一种非线性非平稳的多核组合方法-E2LSH-MKL.该方法利用Hadamard内积实现对不同核函数的非线性加权,充分利用了不同核函数之间交互得到的信息;同时利用基于E2LSH哈希原理的聚类算法,先将原始图像数据集哈希聚类为若干图像子集,再根据不同核函数对各图像子集的相对贡献大小赋予各自不同的核权重,从而实现多核的非平稳加权以提高学习器性能;最后,把E2LSH-MKL应用于视觉语义概念检测.在Caltech-256和TRECVID2005数据集上的实验结果表明,新方法性能优于现有的几种多核学习方法. 展开更多
关键词 视觉语义概念 多核学习 精确欧氏空间位置敏感哈希算法 Hadamard内积
下载PDF
基于Multi-probe LSH的菊花花型相似性计算 被引量:2
9
作者 袁培森 翟肇裕 +1 位作者 钱淑韵 徐焕良 《农业机械学报》 EI CAS CSCD 北大核心 2019年第7期208-215,共8页
针对海量高维菊花图像相似性计算带来的挑战,研究了基于多探测局部位置敏感哈希技术的菊花表型相似性计算方法。针对菊花图像,采用SIFT技术提取菊花图像特征,并采用BoVW模型进行建模。由于图像特征的高维性质,海量的菊花表型相似性计算... 针对海量高维菊花图像相似性计算带来的挑战,研究了基于多探测局部位置敏感哈希技术的菊花表型相似性计算方法。针对菊花图像,采用SIFT技术提取菊花图像特征,并采用BoVW模型进行建模。由于图像特征的高维性质,海量的菊花表型相似性计算效率不高,为了提高计算效率,提出采用近似相似性技术中的多探测局部位置敏感哈希技术,用此方法构建菊花图像数据的哈希数据结构,在菊花相似性查询方面提高了计算效率,并确保了计算结果的质量。在菊花数据集上进行了计算效率和查询质量两方面的测试,并与典型的方法进行了试验对比和分析。结果表明,相比线性式扫描,平均查询成功概率达到0.90以上,平均加速比为3.3~19.8。本文方法能够在查询质量和计算效率两方面通过参数设置提供灵活的优化选择,并对参数的选择提供了参考范围,可为海量菊花花型相似性计算提供参考。 展开更多
关键词 菊花 花型 花型相似性 多探测 局部位置敏感哈希
下载PDF
实时红外图像拼接中的LSH快速配准算法 被引量:1
10
作者 王雨曦 亓洪兴 +1 位作者 葛明峰 舒嵘 《激光与红外》 CAS CSCD 北大核心 2015年第8期994-998,共5页
为了提高画幅式摆扫红外遥感图像拼接的实时性,将LSH(locality sensitive hash)算法应用于图像快速配准,比较了常用的基于Hamming距离、欧式距离和余弦距离的三种LSH方案的性能,实验结果表明,基于Hamming距离的LSH方法在红外图像配准中... 为了提高画幅式摆扫红外遥感图像拼接的实时性,将LSH(locality sensitive hash)算法应用于图像快速配准,比较了常用的基于Hamming距离、欧式距离和余弦距离的三种LSH方案的性能,实验结果表明,基于Hamming距离的LSH方法在红外图像配准中具有更好的实时性和准确性。通过对Hamming距离的LSH实现及改进,并利用遥感图像进行了图像配准的性能测试,构建了基于Hamming距离LSH算法的快速拼接系统。 展开更多
关键词 局部敏感哈希 汉明距离 余弦距离 欧氏距离 图像配准
下载PDF
基于LSH方法的珊瑚礁鱼类竞争压力查询和资源分配方法 被引量:1
11
作者 赵丹枫 黄洲 +1 位作者 许强 黄冬梅 《热带海洋学报》 CAS CSCD 北大核心 2020年第2期118-126,共9页
基于海洋大数据查询技术的珊瑚礁鱼类保护策略是海洋科学研究的重要课题,其中鱼群竞争状况对鱼类保护具有重要意义。研究鱼群竞争状况就必须模型化鱼群与珊瑚礁的依赖关系。作为一个简单有效的大数据模型,图模型是表达这个关系的实用模... 基于海洋大数据查询技术的珊瑚礁鱼类保护策略是海洋科学研究的重要课题,其中鱼群竞争状况对鱼类保护具有重要意义。研究鱼群竞争状况就必须模型化鱼群与珊瑚礁的依赖关系。作为一个简单有效的大数据模型,图模型是表达这个关系的实用模型。文章提出表达珊瑚礁鱼类种群和珊瑚礁资源依赖关系的竞争图建模方法,并提出基于局部敏感哈希(Local Sensitive Hashing,LSH)的鱼类种群竞争压力竞争图查询方法,得到鱼类种群的实时竞争压力状况;然后根据LSH查询结果,分析出需要优先保护的鱼类种群;最后对这些需要优先保护的鱼类种群设计了基于构建人工礁的资源分配方法,使得区域内珊瑚礁鱼类总体竞争状况改善。 展开更多
关键词 珊瑚礁鱼群 竞争图 局部敏感哈希方法 资源分配 总体竞争状况
下载PDF
基于弱监督E2LSH和显著图加权的目标分类方法 被引量:2
12
作者 赵永威 李弼程 柯圣财 《电子与信息学报》 EI CSCD 北大核心 2016年第1期38-46,共9页
在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目... 在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目标分类方法。首先,引入E2LSH算法对训练图像集的特征点聚类生成一组视觉词典,并提出一种弱监督策略对E2LSH中哈希函数的选取进行监督,以降低其随机性,提高视觉词典的区分性。然后,利用GBVS(Graph-Based Visual Saliency)显著度检测算法对图像进行显著度检测,并依据单词所处区域的显著度值为其分配权重;最后,利用显著图加权的视觉语言模型完成目标分类。在数据集Caltech-256和Pascal VOC2007上的实验结果表明,所提方法能够较好地提高词典生成效率,提高目标表达的分辨能力,其目标分类性能优于当前主流方法。 展开更多
关键词 目标分类 视觉词典模型 精确位置敏感哈希 视觉显著图 视觉语言模型
下载PDF
基于近邻参考集与E2LSH加速的姿态敏感器故障检测
13
作者 王婵 王慧泉 +1 位作者 金仲和 杜超禹 《传感技术学报》 CAS CSCD 北大核心 2017年第9期1359-1363,共5页
为满足高维、多状态姿控敏感器遥测数据的实时故障检测,提出了一种基于局部敏感哈希和子空间异常因子的故障检测算法。算法通过局部敏感哈希索引的建立和使用,检测全局故障点;通过子空间异常因子的计算,检测子空间故障点。提出了近似邻... 为满足高维、多状态姿控敏感器遥测数据的实时故障检测,提出了一种基于局部敏感哈希和子空间异常因子的故障检测算法。算法通过局部敏感哈希索引的建立和使用,检测全局故障点;通过子空间异常因子的计算,检测子空间故障点。提出了近似邻近参考集与缓存桶的概念,降低算法的时间复杂度。ZDPS-2卫星的姿控敏感器数据分析结果表明,该方法故障查准率89.3%,查全率100%,且泛化性能优于原始的子空间异常程度算法。该算法解决了原始的子空间异常程度算法实时性低、检测全局故障困难问题,可以满足姿控敏感器实时故障检测需求。 展开更多
关键词 姿态敏感器 故障检测 近邻参考集 局部敏感哈希
下载PDF
M2LSH:基于LSH的高维数据近似最近邻查找算法 被引量:5
14
作者 李灿 钱江波 +1 位作者 董一鸿 陈华辉 《电子学报》 EI CAS CSCD 北大核心 2017年第6期1431-1442,共12页
在许多应用中,LSH(Locality Sensitive Hashing)以及各种变体,是解决近似最近邻问题的有效算法之一.虽然这些算法能够很好地处理分布比较均匀的高维数据,但从设计方案来看,都没有针对数据分布不均匀的情况做相应的优化.针对这一问题,本... 在许多应用中,LSH(Locality Sensitive Hashing)以及各种变体,是解决近似最近邻问题的有效算法之一.虽然这些算法能够很好地处理分布比较均匀的高维数据,但从设计方案来看,都没有针对数据分布不均匀的情况做相应的优化.针对这一问题,本文提出了一种新的基于LSH的解决方案(M2LSH,2 Layers Merging LSH),对于数据分布不均匀的情况依然能得到一个比较好的查询效果.首先,将数据存放到具有计数功能的组合哈希向量表示的哈希桶中,然后通过二次哈希将这些桶号投影到一维空间,在此空间根据各个桶中存放的数据个数合并相邻哈希桶,使得新哈希桶中的数据量能够大致均衡.查询时仅访问有限个哈希桶,就能找到较优结果.本文给出了详细的理论分析,并通过实验验证了M2LSH的性能,不仅能减少访问时间,也可提高结果的正确率. 展开更多
关键词 近似最近邻 KNN查询 局部敏感哈希 高维数据
下载PDF
基于LSH的隐私保护POI推荐算法 被引量:4
15
作者 沈鑫娣 翟东君 +1 位作者 张得天 刘安 《计算机工程》 CAS CSCD 北大核心 2019年第1期96-102,共7页
基于位置的社交网络利用用户的签到数据进行兴趣点(POI)推荐,但是出于对数据隐私的考虑,各种社交平台之间不愿意直接共享数据。为综合各个社交平台的数据从而提供更好的POI推荐服务,提出一种基于局部敏感哈希(LSH)的隐私保护POI推荐算... 基于位置的社交网络利用用户的签到数据进行兴趣点(POI)推荐,但是出于对数据隐私的考虑,各种社交平台之间不愿意直接共享数据。为综合各个社交平台的数据从而提供更好的POI推荐服务,提出一种基于局部敏感哈希(LSH)的隐私保护POI推荐算法。通过LSH选取相似用户集合,极大地减少计算量,满足用户的快速响应需求。利用LSH和Paillier同态加密技术,在计算过程中保护数据隐私不被泄露。真实数据集上的实验结果表明,在响应时间和预测准确度上,该算法优于传统基于用户的协同过滤推荐算法。 展开更多
关键词 局部敏感哈希 隐私保护 推荐算法 兴趣点 同态加密
下载PDF
一种基于LSH的时间子序列匹配查询算法 被引量:1
16
作者 刘根平 陈叶芳 +1 位作者 杜呈透 钱江波 《电信科学》 北大核心 2015年第8期63-71,共9页
提出了一种基于LSH(locality sensitive hashing,局部敏感散列)算法处理时间子序列匹配问题的方法LSHSM。不同于FRM和Dual Match方法 ,该方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列看成高维数据点,利用LSH能处理高维数... 提出了一种基于LSH(locality sensitive hashing,局部敏感散列)算法处理时间子序列匹配问题的方法LSHSM。不同于FRM和Dual Match方法 ,该方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列看成高维数据点,利用LSH能处理高维数据的特性来查找相似时间子序列。实验采用3种不同的时间序列数据集,通过与线性扫描算法比较,验证了算法的有效性,性能有很大的提高。 展开更多
关键词 时间子序列 lsh 匹配查询
下载PDF
基于卷积神经网络和LSH的图像检索算法 被引量:4
17
作者 杨荣 张建刚 贾晖 《西安邮电大学学报》 2022年第2期88-94,共7页
为了提高图像检索的准确度和检索效率,提出一种基于卷积神经网络和局部敏感哈希(Locality-Sensitive Hashing,LSH)算法的图像检索算法。使用图像库ImageNet对视觉几何小组16(Visual Geometry Group 16,VGG16)网络进行训练,获取初始化参... 为了提高图像检索的准确度和检索效率,提出一种基于卷积神经网络和局部敏感哈希(Locality-Sensitive Hashing,LSH)算法的图像检索算法。使用图像库ImageNet对视觉几何小组16(Visual Geometry Group 16,VGG16)网络进行训练,获取初始化参数。以卷积神经网络为基础,增加哈希层代替VGG16全连接层,获取图像的高维特征向量。利用哈希函数满足p-稳定分布的LSH算法将高维特征向量映射为哈希码,并将相似图像映射到同一个哈希桶中作为粗检候选集,计算并排序候选集中特征向量欧氏距离完成图像检索,从而得到最终的检索结果。实验结果表明,与其他基于不同哈希算法的图像检索算法相比,所提算法具有较高的准确性和较快的检索速度。 展开更多
关键词 图像检索 卷积神经网络 局部敏感哈希算法 高维特征向量
下载PDF
一种基于LSH面向二元混合类型数据的相似性查询方法 被引量:5
18
作者 朱命冬 申德荣 +2 位作者 寇月 聂铁铮 于戈 《计算机学报》 EI CSCD 北大核心 2018年第8期1827-1843,共17页
局部敏感哈希方法(LSH)已经被广泛用于高维数据和大规模数据集的最近邻查询,然而现有方法大多将LSH方法用于单一类型的数据,文中尝试将LSH方法用于二元混合类型数据,如图像-文本数据,空间-文本数据等.文中提出了一种基于LSH混合索引结... 局部敏感哈希方法(LSH)已经被广泛用于高维数据和大规模数据集的最近邻查询,然而现有方法大多将LSH方法用于单一类型的数据,文中尝试将LSH方法用于二元混合类型数据,如图像-文本数据,空间-文本数据等.文中提出了一种基于LSH混合索引结构的相似性查询方法,该方法可有效地管理含两种数据类型的数据,并且融合两种数据类型的相似性进行最近邻查询.文中提出的查询方法主要有三个特点:首先,结合LSH方法为混合数据构建混合哈希值,该混合哈希值保留有数据对象之间内容相似性的信息,基于混合哈希值构建哈希索引,进行快速准确的最近邻查询;其次,该方法解决传统LSH方法固定敏感半径的问题,可以有效地处理可变查询范围的相似性查询;最后,该方法在分布式环境中不需要全局索引信息,保证分布式查询的伸缩性.文中通过理论分析证明了查询方法和查询算法的准确性和有效性,进一步通过分布式系统优化及基于真实数据和合成数据的大量实验验证了方法的伸缩性和高效性. 展开更多
关键词 二元混合数据 相似性查询 局部敏感哈希 分布式查询算法 最近邻查询
下载PDF
基于LSH的shapelets转换方法 被引量:1
19
作者 丁智慧 乔钢柱 +1 位作者 程谭 宿荣 《计算机工程与应用》 CSCD 北大核心 2021年第3期112-119,共8页
针对基于shapelets转换的时间序列分类算法因shapelets候选集中存在大量相似序列而造成耗时过长的问题,提出了一种基于LSH的shapelets转换方法(Locality Sensitive Hashing Shapelets Transform,LSHST),提出一种局部敏感哈希函数(LSH)... 针对基于shapelets转换的时间序列分类算法因shapelets候选集中存在大量相似序列而造成耗时过长的问题,提出了一种基于LSH的shapelets转换方法(Locality Sensitive Hashing Shapelets Transform,LSHST),提出一种局部敏感哈希函数(LSH)的改进算法,对原始子序列候选集进行逐级过滤筛选,快速挑选出形态上具有代表性的shapelets集合,计算集合中shapelets的质量,采用覆盖的方法确定将要进行转换的shapelets,进一步减小shapelets的数量,进行shapelets转换。实验表明,与Shapelet Transform(ST)、ClusterShapelets(CST)和Fast Shapelet Selection(FSS)算法相比,LSHST在分类精度上最高提升了20.05、19.9和16.52个百分点,在时间节省程度上最高达8000倍、16000倍和8.5倍。 展开更多
关键词 时间序列分类 shapelets转换 局部敏感哈希
下载PDF
AKNN-Qalsh:PostgreSQL系统高维空间近似最近邻检索插件 被引量:2
20
作者 张楚涵 张家侨 冯剑琳 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第3期79-85,共7页
复杂数据对象(如图片、文本)通常被表示成高维特征向量。PostgreSQL系统现有的最近邻检索方法KNN-Gist基于树状索引实现,无法高效支持高维数据的最近邻检索。引入的PostgreSQL系统高维空间近似最近邻检索插件:AKNN-Qalsh,基于位置敏感... 复杂数据对象(如图片、文本)通常被表示成高维特征向量。PostgreSQL系统现有的最近邻检索方法KNN-Gist基于树状索引实现,无法高效支持高维数据的最近邻检索。引入的PostgreSQL系统高维空间近似最近邻检索插件:AKNN-Qalsh,基于位置敏感哈希机制实现,支持大规模、高维数据对象的近似最近邻检索。通过在五个真实数据集上的密集实验,验证了该插件的有效性。 展开更多
关键词 高维数据 特征向量 最近邻检索 位置敏感哈希 PostgreSQL插件
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部