期刊文献+

基于净化网页的改进消重算法

Improved Duplicate Webpage's Elimination Algorithms Based on Purified Web Pages
下载PDF
导出
摘要 互联网的迅猛发展导致网络中的网页呈指数级别爆炸式增长。为解决在海量网页中寻找信息的问题,搜索引擎成为了人们使用互联网的重要工具。提出了一种基于净化网页的改进消重算法,并将它与传统的消重算法进行了比较。该算法结合关键字搜索和签名(计算指纹)搜索各自的优势来完成网页搜索消重。实验结果证明该方法对网页消重效果很好,提高了网页消重的查全率和查准率。 The internet's development led to the rapid development on the explosive exponential growth level. To look for useful information, search engines have become one of the most important network tools. This paper presents an improved algorithm that is based on purified webpage and compared with the conventional algorithms. The algorithm combines the advantages of keyword search method and signature (calculated fingerprint) search method for the removal of duplicate pages. The experiments results certify that the algorithm improve the recall and precision.
作者 虞曼 熊前兴
出处 《计算机系统应用》 2011年第12期197-199,共3页 Computer Systems & Applications
关键词 网页消重 净化网页 关键字 签名 duplicate webpage elimination algorithm Webpage purification keywords fingerprint
  • 相关文献

参考文献5

  • 1党春辉.网页消重和聚类算法在高校搜索引擎中的应用.上海:东华大学,2009.8-11.
  • 2杜海刚,李先国.一种基于关键词的近似网页检测算法[J].微计算机应用,2008,29(2):41-45. 被引量:3
  • 3Shivakumar N. Finding Near-replicas of Documentson the Web. Proc. of Workshop on Web tabases. 1998:204-214.
  • 4张志刚.基于网页的信息系统的一种预处理过程.北京:北京大学,2010.23-25.
  • 5马文秀.近似镜像网页检测算法的研究及其评测.北京:北京大学.2006.25-28.

二级参考文献8

共引文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部