大规模数据的集合相似度估计研究进展被引量：1

Research Progress of Set Similarity Estimation in Large Scale Data

下载PDF

导出

摘要相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距离的Sim Hash算法,它们是两种常用的大规模数据相似度度量技术。此外,还有基于集合包含度下的集合相似度估计算法。通过总结多篇已发表论文,详细地回顾了不同的相似度度量方式下的集合相似度估计方法。 Similarity estimation is an important component in approximate sets retrieval. For thesimilarity measure, there are mainly MinHash algorithm using Jaccard similarity and SimHash algo-rithm based on Hamming distance. They are two commonly used large -scale data similarity meas-urement techniques. In addition, there is a set similarity estimation algorithm based on set contain-ment. By summarizing a number of published papers, we review the similarity estimation method indifferent similarity measure.

作者何安娜陈华辉 HE An-na;CHEN Hua-hui(Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo 315211, China)

机构地区宁波大学信息科学与工程学院

出处《无线通信技术》 2017年第4期1-5,共5页 Wireless Communication Technology

基金国家自然科学基金项目(61572266)

关键词相似度估计 MinHash 相似性检索集合 SimHash similarity estimation MinHash similarity retrieval set SimHash

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献5

1龙桂鲁,王川,李岩松,邓富国.量子安全直接通信[J].中国科学：物理学、力学、天文学,2011,41(4):332-342. 被引量：34
2顾雁.量子统计力学、量子概率论与量子特征函数[J].中国科学：物理学、力学、天文学,2020,50(7):14-26. 被引量：2
3Gui-Lu Long.Toward applications of cloud quantum computation[J].Science China(Physics,Mechanics & Astronomy),2022,65(11):82-83. 被引量：2
4Ao Shen,Xiao-Yu Cao,Yang Wang,Yao Fu,Jie Gu,Wen-Bo Liu,Chen-Xun Weng,Hua-Lei Yin,Zeng-Bing Chen.Experimental quantum secret sharing based on phase encoding of coherent states[J].Science China(Physics,Mechanics & Astronomy),2023,66(6):139-147. 被引量：2
5Hua-Lei Yin,Yao Fu,Chen-Long Li,Chen-Xun Weng,Bing-Hong Li,Jie Gu,Yu-Shuo Lu,Shan Huang,Zeng-Bing Chen.Experimental quantum secure network with digital signatures and encryption[J].National Science Review,2023,10(4):81-91. 被引量：6

引证文献1

1贾倩倩,石润华,王庆乐,李荟杰.面向云环境的外包数据多关键词量子隐私查询[J].中国科学：物理学、力学、天文学,2024,54(3):30-42.

1曹路,杨文强.基于离散监督哈希的相似性检索算法[J].科学技术与工程,2017,17(26):245-250. 被引量：3
2孙晋永,古天龙,闻立杰,钱俊彦,孟瑜.基于行为和结构特征的相似语义工作流检索[J].计算机研究与发展,2017,54(9):1880-1891. 被引量：4
3宋云霞,强彦,赵涓涓,唐笑先,田奇.基于视觉信息与征象标签的肺结节CT图像检索[J].南京大学学报（自然科学版）,2017,53(6):1043-1051.
4郑高.一型模糊包含度研究综述[J].机电技术,2017,40(6):2-3.
5康伟,孙平涛,梁朋,姜亚彤,高瑞昶.环己烷-乙酸乙酯萃取精馏分离的研究[J].化工进展,2017,36(B11):73-79. 被引量：5
6方欣,姚宇.基于内容的Gist-Hash超声图像检索算法[J].计算机应用,2017,37(A02):74-76. 被引量：1
7汪大勋,高旭亮,韩雨婷,涂冬波.一种简单有效的Q矩阵估计方法开发:基于非参数化方法视角[J].心理科学,2018,41(1):180-188. 被引量：10
8刘玲,黄丽蓉,刘胜宗.论文推荐系统的关键技术研究[J].湖南工程学院学报（自然科学版）,2017,27(4):43-47. 被引量：1
9王旭东,潘东华.基于德温特手工代码的技术分析方法研究[J].情报理论与实践,2017,40(10):96-99. 被引量：5
10王莉,赵艳阳,刘雪峰,牛群峰.基于结构化时延估计算法的声源定位[J].科学技术与工程,2018,18(2):123-129. 被引量：7

无线通信技术

2017年第4期

浏览历史

内容加载中请稍等...

大规模数据的集合相似度估计研究进展被引量：1

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

大规模数据的集合相似度估计研究进展 被引量：1

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

大规模数据的集合相似度估计研究进展被引量：1