期刊文献+

基于Map/Reduce的网页消重并行算法 被引量:2

Algorithm of Parallelized Elimination of Duplicated Web Pages Based on Map/Reduce
下载PDF
导出
摘要 网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。 The module of elimination of duplicated web pages ,which filters the web pages downloaded by the crawler module and gets rid of the duplicated pages,is an important part of a search engine. This module can improve the performance of the crawl module and the quality of searching results of a search engine. An algorithm of elimination of duplicated web pages and a strategy based on Map/Reduce are proposed. Its stability and parallel performance in large scale web pages processing is demonstrated when applied to a real web site in our experiment.
出处 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期153-156,共4页 Journal of Guangxi Normal University:Natural Science Edition
基金 国家自然科学基金资助项目(90412015)
关键词 搜索引擎 网页消重 MAP/REDUCE search engine elimination of duplicated web pages Map/Reduce
  • 相关文献

参考文献7

  • 1李晓明,闫宏飞,王继民.搜索引擎--原理、技术与系统[M].北京:科学出版社,2004:112-119.
  • 2DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[R].San Francisco:Google,2004.
  • 3SHIVAKUMAR N,GARCA-MOLINA H.Finding near-replicas of documents on the Web[EB/OL].[2000-02-26].http://dbpubs.stanford.edu.8090/pub/1998-31/.
  • 4谢正茂.Web数据模型以及获取、存储方法研究[D].北京:北京大学计算机科学技术系,2003.
  • 5QUINNMJ 陈文光 武卫永 译.MPI与OpenMP并行程序设计[M].北京:清华大学出版社,2004..
  • 6GHEMAWAT S,GOBIOFF H,LEUNG Shun-Tak.The google file system[R].San Francisco:Google,2003.
  • 7苏频,李凡长.基于DFS的并行粒计算模型及其应用[J].广西师范大学学报(自然科学版),2006,24(4):66-69. 被引量:1

二级参考文献4

共引文献12

同被引文献30

引证文献2

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部