近似最近邻大数据检索哈希散列方法综述被引量：4

Hashing for Approximate Nearest Neighbor Search on Big Data:A Survey

下载PDF

导出

摘要近似最近邻检索已成为人工智能时代海量数据快速检索主要技术之一。作为高效的近似最近邻检索方法,哈希散列方法受到广泛关注并且层出不穷。到目前为止还没有文献对主流哈希散列方法进行全面地分析和总结。鉴于此,本文首先系统地介绍哈希散列的基本知识,包括距离计算、损失函数、离散约束和外样本计算等。然后,深入对比分析主流哈希散列算法优缺点,并在主流数据库上进行性能评估。最后,总结哈希散列技术目前存在的问题,并提出若干潜在的哈希散列研究方向。本文对设计高效的哈希散列方法具有重要借鉴意义。 Approximate Nearest Neighbor(ANN)search has served as one of the most important technologies for efficient retrieval of large-scale data in the era of artificial intelligence.As a promising solution to the ANN,hashing has received a lot of attention due to its high efficiency and extensive works have been presented in the literature.However,so far,there is no work with attempt to comprehensively analyze and overview the state-of-theart hashing methods.To address this,the basics of hashing,including distance calculation,loss function,discrete constraint and out-of-sample learning,are first systematically introduced.Then,the state-of-the-art hashing based methods are comparatively studied and experiments on the widely used databases are conducted to evaluate their performance.Finally,the key problems of hashing methods are summarized and some potential research directions are pointed out.It is believed that this endeavor could provide other researches with a useful guideline in designing effective and efficient hashing methods.

作者费伦科秦建阳滕少华张巍刘冬宁侯艳 Fei Lun-ke;Qin Jian-yang;Teng Shao-hua;Zhang Wei;Liu Dong-ning;Hou Yan(School of Computers,Guangdong University of Technology,Guangzhou 510006,China)

机构地区广东工业大学计算机学院

出处《广东工业大学学报》 CAS 2020年第3期23-35,共13页 Journal of Guangdong University of Technology

基金国家自然科学基金资助项目(61702110,61603100,61972102) 广东省自然科学基金资助项目(2019A1515011811) 广东省重点领域研发计划项目(2020B010166006)。

关键词近似最近邻匹配哈希学习哈希散列数据检索 approximate nearest neighbor search hashing learning hashing data retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1苏毅娟,余浩,雷聪,郑威,李永钢.基于PCA的哈希图像检索算法[J].计算机应用研究,2018,35(10):3147-3150. 被引量：6
2蒋凯,武港山.基于Web的信息检索技术综述[J].计算机工程,2005,31(24):7-9. 被引量：20
3赵珊,李永思.基于随机旋转局部保持哈希的图像检索技术[J].工程科学与技术,2019,51(2):144-150. 被引量：1
4夏立超,蒋建国,齐美彬.基于改进谱哈希的大规模图像检索[J].合肥工业大学学报（自然科学版）,2016,39(8):1049-1054. 被引量：3

二级参考文献30

1贺玲,吴玲达,蔡益朝.基于内容图像检索中的索引技术[J].计算机应用研究,2005,22(11):219-221. 被引量：7
2Salton G, McGill M J. Introduction to Modem Information Retrieval.McGraw-Hill, 1983.
3Robertson S, Sparck-Jones K. Relevance Weighting of Search Terms.Journal of American Society for Information Science, 1976, 3(27):129-146.
4Deerwester S, Dumais S T, Furnas G W, et al. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
5Massot M, Rodriguez H, Ferres D. QA UdG-UPC System at TREC-12.In: Proceedings of the Twelfth Text Retrieval Conference, 2003:762.
6KULIS B’JAIN P, GRAUMAN K. Fast similarity searchfor learned metrics [J]. IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2009,31(12) : 2143-2157.
7XU H,WANG J, LI Z,et al. Complementary hashing forapproximate nearest neighbor search[C]//2011 IEEE.In-ternational Conference on Computer Vision (ICCV). [S.1.]. IEEE, 2011:1631-1638.
8BEYER K,GOLDSTEIN J,RAMAKRISHNAN R, et al.When is “nearest neighbor” meaningful? [M]//DatabaseTheory: ICDT,99. Berlin:Springer, 1999 : 217-235.
9TORRALBA A, FERGUS R, WEISS Y_ Small codes andlarge image databases for recognition [C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Rec-ognition. [S. 1. ]. IEEE, 2008:1-8.
10NOROUZI M.PUNJANI A,FLEET D J. Fast exact searchin hamming space with multi-index hashing [ J ]. IEEETransactions on Pattern Analysis and Machine Intelli-gence,2014,36(6):1107-1119.

共引文献25

1徐武,李琳,陶红亮,杨印根.Web Information Retrieval的分析与展望[J].景德镇高专学报,2006,21(4):15-17. 被引量：1
2王立华,曲振江.Internet文件检索技术在高校教学中的应用[J].计算机教育,2007(04X):77-80. 被引量：1
3孙铁利,邓凯英.基于Web的文本信息检索技术[J].信息技术,2007,31(9):127-129. 被引量：3
4吕林涛,李翠,井浩,白晓东.基于语义的Web信息检索改进模型[J].西北大学学报（自然科学版）,2007,37(1):21-24. 被引量：1
5周启海,黄涛,张元新,吴红玉.同构化信息温度与热点发现应用初探[J].计算机科学,2007,34(11):113-117.
6史旗凯,郭菊娥.管理事件信息抽取中的基本问题研究[J].情报杂志,2007,26(12):90-92. 被引量：3
7席生长,胡宏涛.信息检索技术在中石油勘探与生产分公司门户内的应用研究[J].福建电脑,2008,24(1):102-103. 被引量：1
8王保平,贾松浩,张新刚,朱思峰.基于本体的Web智能信息检索系统[J].河南科技大学学报（自然科学版）,2009,30(4):47-50. 被引量：2
9吴战英.利用网络检索技术提高高职教学效率[J].中国校外教育,2009(11):142-142.
10刘海燕.网络在城市规划工作中的应用[J].图书馆工作与研究,2009(11):68-70.

同被引文献8

1毛晓蛟,杨育彬.一种基于子空间学习的图像语义哈希索引方法[J].软件学报,2014,25(8):1781-1793. 被引量：8
2李兴亮,毛睿.基于近期最远遍历的支撑点选择[J].南京大学学报（自然科学版）,2017,53(3):483-496. 被引量：5
3Feiping NIE,Rui ZHANG,Xuelong LI.A generalized power iteration method for solving quadratic problem on the Stiefel manifold[J].Science China(Information Sciences),2017,60(11):142-151. 被引量：13
4彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：32
5李秋珍,白兴强,李立夏,王赢.量化编码的分层可通航小世界图算法[J].计算机工程与科学,2019,41(4):618-625. 被引量：1
6滕少华,冯镇业,滕璐瑶,房小兆.联合低秩表示与图嵌入的无监督特征选择[J].广东工业大学学报,2019,36(5):7-13. 被引量：1
7刘艳芳,李文斌,高阳.基于自适应邻域嵌入的无监督特征选择算法[J].计算机研究与发展,2020,57(8):1639-1649. 被引量：9
8刘颖,程美,王富平,李大湘,刘伟,范九伦.深度哈希图像检索方法综述[J].中国图象图形学报,2020,25(7):1296-1317. 被引量：14

引证文献4

1张巍,张圳彬.联合图嵌入与特征加权的无监督特征选择[J].广东工业大学学报,2021,38(5):16-23. 被引量：2
2滕少华,郭兰君,张巍,滕璐瑶.一种标签嵌入子空间的跨模态离散哈希学习[J].江西师范大学学报（自然科学版）,2021,45(3):305-313. 被引量：2
3黄小燕,孙彬,杨展源,朱映映,田奇.面向视觉搜索的空间局部敏感哈希方法[J].中国图象图形学报,2021,26(7):1568-1582. 被引量：4
4顾亚文.浅谈实值向量的近邻检索方案[J].中国新技术新产品,2022(6):27-29.

二级引证文献8

1李鑫勇,滕少华,张巍,滕璐瑶.语义相似性保持的判别式跨模态哈希[J].计算机应用研究,2021,38(11):3359-3365. 被引量：1
2王劭博.基于人工智能的高维数据异常挖掘方法研究[J].信息与电脑,2022,34(7):207-209. 被引量：1
3武林伟,闫婧,王勇.基于深度学习的海量航拍视频智能处理技术[J].现代电子技术,2023,46(4):182-186.
4单振东,骆汉,刘顿.基于机器学习算法的蒸发量模型评估[J].水土保持研究,2023,30(3):289-294. 被引量：1
5韩莉.基于改进灰狼优化算法的区域物流配送点优化分配方法[J].常州工学院学报,2023,36(3):47-53.
6滕少华,黄文彪,张巍,滕璐瑶.标签与样本双语义增强的跨模态检索[J].江西师范大学学报（自然科学版）,2023,47(3):296-306.
7郑丽苹,邓秀勤,张逸群.基于图结构的分类数据距离度量[J].广东工业大学学报,2023,40(4):109-116.
8周元鼎,房耀东,秦川.面向感知哈希的图像数据集[J].中国图象图形学报,2024,29(2):343-354.

1《河南科技》杂志知识产权专栏征稿函[J].河南科技,2020,0(3).
2卓君宝,苏驰,王树徽,黄庆明.最小熵迁移对抗散列方法[J].计算机研究与发展,2020,57(4):888-896.
3陈北京,高野,俞铭,吴鹏,舒华忠.基于分数阶四元数Zernike矩和改进PatchMatch算法的有效复制-粘贴篡改检测算法（英文）[J].Journal of Southeast University(English Edition),2019,35(4):431-439. 被引量：3
4张博麟,陈征.跨模态哈希学习研究进展[J].无线通信技术,2019,28(4):35-39. 被引量：1
5刘淑伟,陈威,赵伟,陈进才,卢萍.基于簇内乘积量化的最近邻检索方法[J].计算机学报,2020,43(2):303-314. 被引量：6
6徐天翔.大数据展现技术研究与实现[J].电子乐园,2019(29):12-13.
7冯小康,彭延国,崔江涛,刘英帆,李辉.基于最优排序的局部敏感哈希索引[J].计算机学报,2020,43(5):930-947. 被引量：8
8许扬,刘雪梅.基于区块链的开放科学生态系统研究进展[J].中华医学科研管理杂志,2020,33(1):2-8. 被引量：2
9李子晋,韩宝强.中国传统乐器音响数据库构建研究[J].中国音乐学,2020(2):92-102. 被引量：10
10庄锡钊.云环境下物联网数据安全去重技术研究[J].卫星电视与宽带多媒体,2020(5):29-34. 被引量：2

广东工业大学学报

2020年第3期

浏览历史

内容加载中请稍等...

近似最近邻大数据检索哈希散列方法综述被引量：4

参考文献4

二级参考文献30

共引文献25

同被引文献8

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

近似最近邻大数据检索哈希散列方法综述 被引量：4

参考文献4

二级参考文献30

共引文献25

同被引文献8

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

近似最近邻大数据检索哈希散列方法综述被引量：4