期刊文献+

中文网页分布式并行索引的设计与实现 被引量:1

The design and implementation of distributed andparallel index of Chinese website
下载PDF
导出
摘要 Internet搜索引擎主要由搜索器、索引器和用户界面三部分组成。通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。 Internet search engine consists of three parts:searcher,index database and user interface.This paper first analyzes the importance of the indexer in real-time and effectiveness of the search engine.Then a new index approach is presented which carries out Chinese word segmentations by multiple processing concurrently.The maximum matching method is used to create index data of Chinese web pages and the inverted index table is carried to store index data.This method accelerates the speed of the indexing and updating,as well as the efficiency in space is enhanced.
出处 《微计算机信息》 2010年第15期127-128,191,共3页 Control & Automation
关键词 分布式并行索引 倒排索引 正向最大匹配法 distributed and parallel Index inverted index the maximum matching method
  • 相关文献

参考文献4

二级参考文献14

  • 1胡涛,路红英.基于Nutch的搜索引擎的研究[J].计算机时代,2007(1):57-59. 被引量:16
  • 2洪雄,戴光明,冷春霞.构架Linux环境下基于MPICH的工作站机群[J].微计算机信息,2006,22(03X):124-126. 被引量:10
  • 3郭祥昊 李蕾.让搜索引擎灵起来[N].中国计算机报,2000-04-17.
  • 4严蔚敏 吴伟民.数据结构[M].北京:清华大学出版社,1997..
  • 5李目辉,汤大权,武德峰.信息组织与检索[M].北京:科学出版社,2003.
  • 6李晓明 刘建国.搜索引擎技术及趋势[N].中国计算机报,2000-03-20(09).
  • 7Hau Yee Sit,Kei Shiu Ho,Hong Va Leong,et al.An Adaptive Clustering Approach to Dynamic Load Balancing[C].Proc.of 7th International Symposium on Parallel Architectures,Algorithms and Networks,2004:415-420.
  • 8Balasubramaniam M.,Barker K.,Banicescu I.,et al.A novel dynamic load balancing library for cluster computing[C].Proc.of Third International Workshop on Parallel and Distributed Computing,2004:346-353.
  • 9《现代数学手册》编纂委员会.现代数学手册(计算机数学卷)[M].武汉:华中科技大学出版社,2001.
  • 10自然语言理解[M].刘群,张华平,等译.北京:电子工业出版社,2005.

共引文献41

同被引文献4

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部