期刊文献+

搜索引擎Google的体系结构及其核心技术研究 被引量:8

Study on architecture and core technology of search engine Google
下载PDF
导出
摘要 Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率. It is hard to retrieve information on the Internet, but search engine make it easy. The data on the Intemet is so large that the retrieve information technology on the normal database can not meet the requirement. To resolve the problem, some technologies, such as parallel processing, barrel sorting, compression and PageRank, are applied to Google. So it is a complicated system which have five parts, crawler, Repository, index system(including indexer, barrels, file index and so on), sorter, searcher. The rank system of Google considers both count-weight, type weight, prox-weight, and PageRank which weight the importance of a page. Applied Academic citation literature to the Web, a page can have a high PageRank if there arc many pages that point to it, or if there arc some pages that point to it and have a high PageRank. Applying the PageRank, the search technology is improved effectively.
作者 王德峰 李东
出处 《哈尔滨商业大学学报(自然科学版)》 CAS 2006年第1期84-87,共4页 Journal of Harbin University of Commerce:Natural Sciences Edition
关键词 搜索引擎 PAGERANK GOOGLE 网络爬行机器人 排序 search engine PageRank Google crawler sort
  • 相关文献

参考文献7

  • 1FILIPPO M,GAUTAM P,PADMINI S.Web crawlers:Evaluation adaptive algorithms[J].ACM Transaction on Internet Technology,2004,4(4):378-419.
  • 2.《中国互联网络发展状况统计报告(2005/1)》[EB/OL].http://www.cnnic.net.cn/download/2005/2005011801.pdf,2005-1-18.
  • 3李晓明,刘建国.搜索引擎技术及趋势[J].中国计算机用户,2000(9):27-28. 被引量:14
  • 4孟晓明.搜索引擎在网络信息挖掘中的应用[J/OL].计算机与信息技术.2003,116(5)[J].http://www.ahcit.com/200305/26.doc,2003-4-17:.
  • 5BRIN,PAGE L.The anatomy of a large-scale hypertexual Web search engine[A].Proc.of the WWW7 Conference[C].Brisbane,Australia:April,1998.107-117.
  • 6韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量:356
  • 7ALLAN BORODIN.Finding Authorities and Hubs From Link Structures on the World Wide Web[A].WWW'10[C].Hong Kong:[s.l.] 2001.415-429.

二级参考文献5

  • 1Han J,Data Mining:Concepts and Techniques,2000年
  • 2Wang K,Proc of VLDB'97,1999年,363页
  • 3Zaiane O R,Proc Int Workshop Web Information and Data Management(WIDM'98),1998年,9页
  • 4Mobasher B,Tech Rep:TR96 0 5 0,1996年
  • 5Zaiane O R,Proc KDD'95,1995年,331页

共引文献368

同被引文献63

引证文献8

二级引证文献14

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部