基于位置敏感哈希的海量文本数据查询算法研究被引量：1

Research on Massive Text Data Queries Algorithm Based on Locality Sensitive Hashing

下载PDF

导出

摘要提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。 This paper proposes a massive text data queries algorithm based on locality sensitive hashing algorithm, which is used to map the features of texts to hash buckets. The aim of the proposed algorithm is to reduce the calculation complexity and increase data retrieval efficiency. Firstly, using TF-IDF to characterize the feature vectors of texts, and then mapping the text feature vectors to a hash bucket according to a given set of hash functions. Secondly, utilizing a hash table for the given text to calculate the corresponding histogram, and then using the histogram distance to calculate text similarity. Finally, sorting the target texts according to text similarity, and then the texts with higher ranking scores are output to users. Experimental results show that compared with the existing methods, the proposed algorithm performs better in both the metric of MAP and precision-recall curve.

作者蒋巍

机构地区哈尔滨金融学院

出处《科技通报》北大核心 2013年第10期70-72,共3页 Bulletin of Science and Technology

基金黑龙江省教育厅2013年度科学技术研究(面上)项目(12531089)

关键词位置敏感哈希海量文本数据哈希桶排序 locality sensitive hashing massive text data hash bucket ranking

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1凌康.基于位置敏感哈希的相似性搜索技术研究[D].南京:南京大学,2012.
2刘瑰.面向海量信息处理领域的数据网格及其关键技术研究[D].郑州:解放军信息工程大学,2009.
3陈光强.面向海量文本数据的多任务并行调度加载技术研究与实现[D].长沙:国防科学技术大学,2009.

同被引文献2

1杨学亮,项安,刘青松,张涛.基于RFID的轨道机器人定位系统研究[J].机电一体化,2012,18(9):18-21. 被引量：8
2杜永乾,庄奕琪,李小明,刘伟峰.低功耗UHFRFID射频/模拟前端解决方案[J].华中科技大学学报（自然科学版）,2014,42(9):81-87. 被引量：4

引证文献1

1张义磊,张兆东.基于哈希函数的矿用RFID定位系统研究[J].中国仪器仪表,2017(1):54-58.

1杜丙新.图像检索研究综述及系统实现[J].电子科技,2016,29(6):185-189. 被引量：5
2左晓军,董立勉,曲武.基于Spark框架的分布式入侵检测方法[J].计算机工程与设计,2015,36(7):1720-1726. 被引量：5
3赵启潍,张乐,祝贝利,刘静.面向高维数据的LSH算法及应用[J].福建电脑,2012,28(4):13-14. 被引量：1
4吴俊君.移动机器人视觉候选闭环召回方法设计[J].计算机工程与设计,2016,37(6):1659-1662. 被引量：1
5李灿.基于内容的商品图像检索技术与系统研究[J].移动通信,2016,40(8):63-69. 被引量：1
6王洪峰,刘辛.基于位置敏感哈希的网络视频重复检测[J].计算机应用研究,2012,29(5):1954-1958. 被引量：2
7郝世选.基于位置敏感哈希的入侵检测研究与应用[J].计算机仿真,2016,33(4):308-311. 被引量：3
8侯士江,张玉江,刘国华.基于位置敏感哈希分割的空间K-匿名共匿算法[J].计算机科学,2013,40(8):115-118. 被引量：2
9王洪亚,吴西送,任建军,赵银龙.分布式平台下MinHash算法研究与实现[J].智能计算机与应用,2014,4(6):44-46. 被引量：5
10屈正庚,赵杰.一种改进的高效多模式匹配算法[J].系统仿真技术,2014,10(2):116-120. 被引量：2

科技通报

2013年第10期

浏览历史

内容加载中请稍等...

基于位置敏感哈希的海量文本数据查询算法研究被引量：1

参考文献3

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于位置敏感哈希的海量文本数据查询算法研究 被引量：1

参考文献3

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于位置敏感哈希的海量文本数据查询算法研究被引量：1