高性能文本索引系统的设计与实现被引量：1

Design and implementation of high-performance text index system

下载PDF

导出

摘要针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。 The traditional text index technology has problems like oversize space consumption,inaccurate word segmentation,etc. In order to solve these problems,a high-performance text index system is designed and implemented.This system employs com-pressed full-text self-index algorithm,which helps save space and avoid influence from natural language word segmentation.Com-bined with wildcard search algorithm,its search function is enriched.And applied on high-performance processors with many-core CPU,this system can execute in a parallel multi-thread way,which increases processing speed.The entire system is Web-based,so that it can be run in different operating systems.Experimental results show that this systemhas high practical value in thatit reduces space consumption to about 50%of primary text.

作者路炜张宇周美孜刘燕兵王春露

机构地区中国科学院信息工程研究所河北师范大学附属民族学院北京邮电大学计算机学院中国人民大学信息学院

出处《中国科技论文》 CAS 北大核心 2014年第1期92-95,107,共5页 China Sciencepaper

基金国家高技术研究发展计划(863计划)资助项目(2011AA010703) 国家自然科学基金资助项目(61202477) 中国科学院战略性先导科技专项资助项目(XD06030602) 河北省教育厅资助科研项目(QN20131164)

关键词计算机应用文本索引全文索引自索引通配符搜索 computer application text index full-text index self-index wildcard search

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Gusfield D. Algorithms on Strings,Trees and Se-quences:Computer Science and Computational Biology[M].{H}Cambridge:Cambridge University Press,1997.
2Manber U,Myers G. Suffix arrays:a new method for on-line string searches[J].{H}SIAM Journal on Computing,1993,(05):935-948.
3Ian H W,Alistair M,Timothy C B. Managing Giga-bytes:Compressing and Indexing Documents and Ima-ges[M].Los Altos:Morgan Kaufmann Publishers,1999.
4Navarro G,Mkinen V. Compressed full-text indexes[J].{H}ACM COMPUTING SURVEYS,2007,(01):articleNo.2.
5Ferragina P,González R,Navarro G. Com-pressed text indexes:from theory to practice[J].Jour-nal of Experimental Algorithmics,2009,(12):1-35.
6Paolo F,Gonzalo N. Pizza&Chili Corpus-Compressed indexes and their testbeds[OL].ht-tp://pizzachili.dcc.uchile.cl/index.html,2013.
7Sirén J,Vlimki N,Mkinen V. Run-length compressed indexes are superior for highly repetitive se-quence collections[A].Springer Berlin Heidelberg,2009.164-175.
8Ferragina P,Sirén J,Venturini R. Distribution-aware compressed full-text indexes[A].{H}Springer-Verlag,2011.760-771.
9Sirén J. Compressed Full-Text Indexes for Highly Re-petitive Collections[D].Helsinki:University of Hel-sinki,2012.
10Gagie T,Karhu K,Navarro G. Document List-ing on Repetitive Collections[A].Springer Berlin Heidelberg,2013.107-119.

同被引文献7

1王金宝,高宏,李建中,杨东华.RB树:一种支持空间近似关键字查询的外存索引[J].计算机研究与发展,2012,49(10):2142-2152. 被引量：9
2胡骏,范举,李国良,陈姗姗.空间数据上Top-k关键词模糊查询算法[J].计算机学报,2012,35(11):2237-2246. 被引量：15
3路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
4特日根,李巍,李雄飞.动态有序树存储模型与实现方法[J].计算机研究与发展,2013,50(5):969-985. 被引量：4
5易显天,徐展,郭承军,刘丹,张可.基于Patricia树的空间索引结构[J].计算机工程,2015,41(12):69-74. 被引量：4
6刘喜平,万常选,刘德喜,廖国琼.空间关键词搜索研究综述[J].软件学报,2016,27(2):329-347. 被引量：19
7徐明.基于节点分裂优化的R-树索引结构[J].计算机应用研究,2016,33(12):3530-3534. 被引量：7

引证文献1

1张素智,赵亚楠,杨芮.支持空间数据移动查询的索引研究[J].湖北民族学院学报（自然科学版）,2017,35(4):423-428.

1刘秦毅.索引时间戳：一种高效的文本索引系统设计方法[J].计算机工程与科学,1994,16(2):1-6. 被引量：2
2樊超.在hadoop下运用Mapreduce构建文本索引[J].电子制作,2013,21(13):56-56.
3刘秉毅.面向文本数据库管理系统FIMS的文本索引及检索[J].软件,1994,15(3):20-25. 被引量：1
4万福成,李冬晨,何向真,徐涛.面向信息检索的藏文文本索引策略研究[J].计算机工程与应用,2014,50(7):208-211. 被引量：1
5张宗闰.用通配符搜索指定文件夹中的文件[J].电脑爱好者,2006,0(9):40-40.
6孔维娟,谢顺平,邓敏.基于网格的多源空间数据集成模型[J].河南科学,2008,26(1):69-72. 被引量：3
7董佳.常用搜索引擎搜索语法简析与比较[J].科技风,2014(19):102-102.
8李子臣,张丽宁.互联网上的图像信息检索[J].互联网世界,2001(10):74-76.
9周英华,金培权,岳丽华,龚育昌.基于位置的web搜索索引研究[J].中国科学技术大学学报,2007,37(2):147-152. 被引量：1
10邵奇峰,李枫.一种基于HBase的空间关键字查询算法[J].计算机工程与科学,2015,37(11):2084-2090. 被引量：5

中国科技论文

2014年第1期

浏览历史

内容加载中请稍等...

高性能文本索引系统的设计与实现被引量：1

参考文献13

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

高性能文本索引系统的设计与实现 被引量：1

参考文献13

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

高性能文本索引系统的设计与实现被引量：1