期刊文献+

大规模数据的集合相似度估计研究进展 被引量:1

Research Progress of Set Similarity Estimation in Large Scale Data
下载PDF
导出
摘要 相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距离的Sim Hash算法,它们是两种常用的大规模数据相似度度量技术。此外,还有基于集合包含度下的集合相似度估计算法。通过总结多篇已发表论文,详细地回顾了不同的相似度度量方式下的集合相似度估计方法。 Similarity estimation is an important component in approximate sets retrieval. For thesimilarity measure, there are mainly MinHash algorithm using Jaccard similarity and SimHash algo-rithm based on Hamming distance. They are two commonly used large -scale data similarity meas-urement techniques. In addition, there is a set similarity estimation algorithm based on set contain-ment. By summarizing a number of published papers, we review the similarity estimation method indifferent similarity measure.
作者 何安娜 陈华辉 HE An-na;CHEN Hua-hui(Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo 315211, China)
出处 《无线通信技术》 2017年第4期1-5,共5页 Wireless Communication Technology
基金 国家自然科学基金项目(61572266)
关键词 相似度估计 MinHash 相似性检索 集合 SimHash similarity estimation MinHash similarity retrieval set SimHash
  • 相关文献

同被引文献5

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部