期刊文献+

基于内容特征码的重复网页检测方法探析

下载PDF
导出
摘要 重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重复网页的特征提取方法和比较算法进行了分析,并对目前常用的基于特征的检测算法进行了比较,总结了当前常用特征提取和比较算法的不足和需要改进之处。
作者 符于江
出处 《科技信息》 2012年第26期162-163,共2页 Science & Technology Information
  • 相关文献

参考文献2

  • 1苏国荣.校园网搜索引擎排序的去重方法研究[D].国防科学技术大学工程硕士论文,201().
  • 2杨武,唐蓉,任丽芸.重复网页检测算法综述[J].电脑知识与技术,2010,6(8):6237-6239. 被引量:1

二级参考文献11

  • 1中国互联网络信息中心(CNNIC).第25次中国互联网络发展状况统计报告[EB/OL].(2010-01-18].http://www.cnnic.net.cn/html/Dir/2010/01/15/5767.htm.
  • 2中国互联网信息中心(CNNIC)信息服务部.正确看待2004年中国互联网络信息资源的发展特点[EB/OL].(2005-06).http://www.cnnic.net.cn/html/Dir/2005/07/01/3027.htm.
  • 3Lopresti D.String techniques for duplicate document detection[C].Proceedings of the Symposium on Document Image Understanding Technology,Annapolis,MD,1999:101-112.
  • 4Shivakumar N,Garcia-Molina H.SCAM:A copy detection mechanism for digital documents[C].Proceedings of the 2nd International Conference in Theory and Practice of Digital Libraries(DL'95),1995.
  • 5Broder A Z,Glassman S C,Manasse M S,et al.Syntactic Clustering of the Web[C].Sixth International World Wide Web Conference,1997.
  • 6Chowdhury A,Frieder O,Grossman D,et al.Collection statistics for fast duplicate document detection.ACM Transactions on Information Systems,2002,20(2):171-191.
  • 7Shivakmar N,Garcia-Molina H.Finding near-replicas of documents on the web[C].Proceedings of Workshop on Web Databases (WebDB'98) (Valencia,Spain,March),1998:204-212.
  • 8李晓明,闫宏飞.王继民.搜索引擎:原理、技术与系统[M].北京:科学出版社,2005.
  • 9Zhang Z,Chen J,Li X.A preprocessing framework and approach for web applications[J].Journal of Web Engineering,2004,2:175-191.
  • 10张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001.

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部