期刊文献+

基于压缩倒排文件的中文全文检索仿真系统

Chinese Full-text Retrieval Simulation System Based on Compressed Inverted File
下载PDF
导出
摘要 探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统,采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码,利用搜狗实验室提供的数据进行实验。通过改进压缩算法,系统的磁盘利用率提高了近80%。 This paper analyzes Chinese full-text retrieval technologies based on compressed inverted file, including data compression, file storage, searching and ranking mechanisms. A Chinese text retrieval simulation system is implemented in C++/STL with ICTCLAS, which is a high precision Chinese segmentation tool from CAS. Some key codes are also included, and an experiment is carried using data provided by the Sogou Lab. The system disk utilization goes up nearly 80% through using improved compression algorithm.
作者 宋懿 国德峰
出处 《计算机工程》 CAS CSCD 北大核心 2008年第9期64-66,共3页 Computer Engineering
关键词 中文全文检索 压缩倒排文件 排名 Chinese full-text retrieval, compressed inverted file ranking
  • 相关文献

参考文献6

  • 1Miller E.Performance and Scalability of a Large-scale N-gram Based Information Retrieval System[J].Journal of Digital Information,2000,1(5):1-25.
  • 2William B F.Information Retrieval:Data Structures & Algorithms[M].[S.l.]:Prentice-Hall,1992.
  • 3宿红毅.基于Java的搜索引擎Nutch中文搜索技术研究[EB/OL].(2006-11-02).http://blog.csdn.net.
  • 4Stroustrup B.C++程序设计语言[M].北京:机械工业出版社,2002-07.
  • 5Moffat A,Zobel J.Self-indexing Inverted Files for Fast Text Retrieval[J].ACM Transactions on Information System,1996,14(4):349-379.
  • 6Robertson S E.Simple Proven Approaches to Text Retrieval[R].Cambridge,England:Cambridge University Computer Laboratory,Technical Report:TR356,1997.

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部