基于前缀剪枝的大规模向量空间相似检索框架

A Large-Scale Vector Space Similarity Retrieval Framework Based on Prefix Pruning

下载PDF

导出

摘要针对大规模文本集合下基于权重的相似性查询问题,提出一种支持前缀剪枝的高效检索框架。首先给出向量空间模型下相似性及其带权前缀定义,理论证明了带权前缀剪枝的正确性;其次,面向大规模文本查询,提出一种新的倒排索引结构,利用索引叶节点维护记录的前缀权重,并基于该索引构建高效的相似检索算法;最后,在TF/IDF权重策略下证明该方法能够有效支持大规模带权相似检索。结果表明,其查询效率较Lucene的归并验证策略提升了5倍以上。 Aiming at the problem of weight-based similarity query under large-scale text collection,an efficient retrieval framework supporting prefix pruning is proposed.Firstly,we give the definition of similarity and its weighted prefix under the vector space model,and theoretically prove the correctness of weighted prefix pruning;then,for large-scale text query,we propose a new inverted index structure,use the index leaf nodes to maintain the prefix weights of the records,and construct efficient similarity retrieval algorithms based on the index;finally,we prove that the meth-od can effectively support large-scale similar retrieval with weights,and the results show that its query efficiency is more than 5 times higher than that of Lucene's subsumption verification strategy.

作者刘健博邓凌风李文海田野 LIU Jianbo;DENG Lingfeng;LI Wenhai;TIAN Ye(Wuhan DNect Technology ltd.,Wuhan 430205,China;School of Computer Science,Wuhan University,Wuhan 430072,China;School of Software Engineering,Hubei Open University,Wuhan 430074,China)

机构地区武汉数博科技有限责任公司武汉大学计算机学院湖北开放大学软件工程学院

出处《软件导刊》 2024年第6期92-97,共6页 Software Guide

基金武汉市重点研发计划项目(2023010402040006)。

关键词前缀剪枝 TF/IDF 向量空间倒排索引信息检索数据库 prefix-based pruning TF/IDF vector space model inverted index information retrieval database

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1王金宝,高宏,李建中,杨东华.外存中高效的字符串相似性查询处理[J].计算机研究与发展,2015,52(3):738-748. 被引量：3
2王永欣,田洁茹,陈振铎,罗昕,许信顺.基于标记增强的离散跨模态哈希方法[J].软件学报,2023,34(7):3438-3450. 被引量：4
3文庆福,王建民,朱晗,曹越,龙明盛.面向近似近邻查询的分布式哈希学习方法[J].计算机学报,2017,40(1):192-206. 被引量：10
4高远宁,叶金标,杨念祖,高晓沨,陈贵海.基于中间层的可扩展学习索引技术[J].软件学报,2020,31(3):620-633. 被引量：12
5朱命冬,徐立新,申德荣,寇月,聂铁铮.面向不确定文本数据的余弦相似性查询方法[J].计算机科学与探索,2018,12(1):49-64. 被引量：12

二级参考文献23

1Behm A, Li Chen, et al. Answering approximate string queries on large data sets using external memory [C] //Proc of IEEE ICDE'll. Los Alamitos, CA: IEEE Computer Society, 2011:888-899.
2Wagner R, Fischer M. The string-to-string correction problem [J]. Journal of the ACM, 1974, 21(1): 168-173.
3Zobel J, Moffat A. Inverted files for text search engines [J]. ACM Computer Survey, 2006, 38(2): 6-20.
4Gravano L, Ipeirotis P, et al. Approximate string join in a database (almost) for free [C] //Proc of VLDB'01. San Francisco: Morgan Kaufmann, 2001:491-500.
5Chaudhuri S, Ganti V, et al. A primitive operator for similarity joins in data cleaning [C] //Proc of IEEE ICDE'06. Los Alamitos, CA: IEEE Computer Society, 2006:5-15.
6Xiao Chuan, Wang Wei, et al. Ed-join: An efficient algorithm for similarity joins with edit distance constrains [J]. Proceedings of the VLDB Endowment. 2008, 1 (1): 933-944.
7Li Chen, l.u Jiaheng, et al. Efficient merging and filtering algorithms for approximate string searches [C] //Proe of IEEE ICDE'08. Los Alamitos, CA: IEEE Computer Society, 2008:257-266.
8Sarawagi S, Kirpal A. Efficient set joins on similarity predicates [C] //Proc of ACM SIGMOD'04. New York: ACM, 2004:743-754.
9Behm A, Ji Sbengyue, et aI. Space-constrained gram-based indexing for efficient approximate string search [C] //Proc of IEEE ICDE'09. Los Alamitos, CA: IEEE Computer Society, 2009:204-215.
10Hadijieleftheriou M, Koudas N, et al. lnereamental maintenance of length normalized indexes for approximate string matching [C] //Proc of ACM SIGMOD'10. New York: ACM, 2011:429-440.

共引文献36

1朱命冬,徐立新,申德荣,寇月,聂铁铮.面向不确定文本数据的余弦相似性查询方法[J].计算机科学与探索,2018,12(1):49-64. 被引量：12
2张素芳,翟俊海,王婷婷,郝璞,王聪,赵春玲.基于Spark的压缩近邻算法[J].计算机科学,2018,45(B06):406-410. 被引量：2
3宋辉,代杰杰,张卫东,毕凯,罗林根,盛戈皞,江秀臣.基于变分贝叶斯自编码器的局部放电数据匹配方法[J].中国电机工程学报,2018,38(19):5869-5877. 被引量：13
4林俊,方宽.审计大数据下模糊匹配审计证据获取方法研究[J].计算机与数字工程,2018,46(4):758-763. 被引量：4
5刘昊淼,王瑞平,山世光,陈熙霖.基于离散优化的哈希编码学习方法[J].计算机学报,2019,42(5):1149-1160. 被引量：6
6陈张帆,庞帆,张婷,田昀.电力设备信息智能理解与匹配的方法研究及应用[J].电脑知识与技术,2019,15(5X):250-251. 被引量：3
7高远,李青.基于容器理论的模式识别算法[J].自动化技术与应用,2019,38(6):117-121. 被引量：1
8陈凤,蒙祖强.基于哈希算法的异构多模态数据检索研究[J].计算机科学,2019,46(10):49-54. 被引量：11
9蒲在毅.云计算加密数据关键词代数签名索引匹配搜索[J].计算机应用与软件,2020,37(6):53-58.
10李昀,邓颖,吴华瑞.面向农业科研办公的垂直搜索引擎研究与设计[J].西南师范大学学报（自然科学版）,2020,45(9):43-50. 被引量：1

1王伟,丁佳浩,叶红阳,朱博文,史文阳.基于前后端分离架构的某企业档案管理系统设计与实现[J].现代信息科技,2024,8(6):11-14.
2赵中强.论高中英语写作教学[J].中文科技期刊数据库（文摘版）教育,2018(12):321-321.
3兰连生.初中英语跨学科教学的策略探究[J].教师,2024(14):51-53.
4吴佳霖,李桂玉,李钰.利用数据挖掘技术分析实验室设备故障规律与维护策略[J].数字通信世界,2024(6):118-120.
5杨宝霞.“双减”背景下提升学生体质健康水平策略研究[J].新校园,2024(6):87-88.
6杨鸿茜,武优西,耿萌,刘靖宇,李艳.高效的一次性弱间隙序列模式挖掘算法[J].计算机工程,2024,50(3):60-67.
7邱蕾.中学生积极心理状况的现状分析及对策研究[J].新课程评论,2024(5):16-25.
8李德秀.关于单元整合阅读策略在小学语文阅读中的应用探讨[J].美眉,2024(5):0142-0144.
9辛洪敏,蔡明洁,王保防.考虑未知惯量与不平衡力矩的四电机同步驱动伺服系统容错控制[J].电机与控制应用,2024,51(6):98-106.
10阳光耀,陈一笛.应激与生命意义感的曲线关系:基于意义建构视角[J].中国临床心理学杂志,2024,32(3):645-649.

软件导刊

2024年第6期

浏览历史

内容加载中请稍等...

基于前缀剪枝的大规模向量空间相似检索框架

参考文献5

二级参考文献23

共引文献36

相关作者

相关机构

相关主题

浏览历史