期刊文献+

一个基于特征向量的近似网页去重算法 被引量:5

下载PDF
导出
摘要 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
出处 《中国索引》 2009年第1期11-14,共4页 Journal of the China Society of Indexers
  • 相关文献

参考文献11

  • 1Zhao Li,Wee Keong Ng,Aixin Sun.Web data extraction based on structural similarity[J].Knowledge and Information Systems.2005(4)
  • 2http://news.netcraft.com/archives/web-server-survey.html .
  • 3Bharat K,Broder A.Z.,Dean J.et al.A comparison of techniques to find mirrored hosts on the WWW[].Journal of the American Society for Information Science.2000
  • 4Cao Yujuan,Niu ZhenDong.Extracting Informative Blocks from Web Pages[].Proceedings of the Seventh In-ternational Conference on Advanced Language Processing and Web Information Technology(ALPIT).2008
  • 5J. Dean and M. Henzinger.Finding related pages in the world wide web[]..1999
  • 6Gurmeet Singh Manku.Detecting Near Duplicates for Web Crawling[].International World Wide Web Conference Committee(IWC).2007
  • 7Broder,A,Glassman,S,Manasse,S.Syntactic clustering of the web[].Proceedings of the Sixth International World Wide Web Conference (WWW).1997
  • 8HEINTZE,N.Scalable document fingerprinting[].Proceedings of the Second USENIX Electronic Commerce Workshop.1996
  • 9Shaozhi Ye,Ji-Rong Wen.A systematic study on parameter correlations in large scale duplicate document detection[].Proceedings oft he th Pacific-Asia Conference on Knowledge Discovery and Data Mining.2006
  • 10Chowdhury A,Frieder O,Grossman D,McCABE M C.Collection statistics for fast duplicate document detection[].ACM Transactions on Information Systems.2002

同被引文献36

引证文献5

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部