基于内容特征码的重复网页检测方法探析
摘要
重复网页检测的关键问题是如何有效地提取相似网页内容的特征并对特征进行相似度比较。本文概述了重复网页的定义、检测流程,对重复网页的特征提取方法和比较算法进行了分析,并对目前常用的基于特征的检测算法进行了比较,总结了当前常用特征提取和比较算法的不足和需要改进之处。
出处
《科技信息》
2012年第26期162-163,共2页
Science & Technology Information
参考文献2
-
1苏国荣.校园网搜索引擎排序的去重方法研究[D].国防科学技术大学工程硕士论文,201().
-
2杨武,唐蓉,任丽芸.重复网页检测算法综述[J].电脑知识与技术,2010,6(8):6237-6239. 被引量:1
二级参考文献11
-
1中国互联网络信息中心(CNNIC).第25次中国互联网络发展状况统计报告[EB/OL].(2010-01-18].http://www.cnnic.net.cn/html/Dir/2010/01/15/5767.htm.
-
2中国互联网信息中心(CNNIC)信息服务部.正确看待2004年中国互联网络信息资源的发展特点[EB/OL].(2005-06).http://www.cnnic.net.cn/html/Dir/2005/07/01/3027.htm.
-
3Lopresti D.String techniques for duplicate document detection[C].Proceedings of the Symposium on Document Image Understanding Technology,Annapolis,MD,1999:101-112.
-
4Shivakumar N,Garcia-Molina H.SCAM:A copy detection mechanism for digital documents[C].Proceedings of the 2nd International Conference in Theory and Practice of Digital Libraries(DL'95),1995.
-
5Broder A Z,Glassman S C,Manasse M S,et al.Syntactic Clustering of the Web[C].Sixth International World Wide Web Conference,1997.
-
6Chowdhury A,Frieder O,Grossman D,et al.Collection statistics for fast duplicate document detection.ACM Transactions on Information Systems,2002,20(2):171-191.
-
7Shivakmar N,Garcia-Molina H.Finding near-replicas of documents on the web[C].Proceedings of Workshop on Web Databases (WebDB'98) (Valencia,Spain,March),1998:204-212.
-
8李晓明,闫宏飞.王继民.搜索引擎:原理、技术与系统[M].北京:科学出版社,2005.
-
9Zhang Z,Chen J,Li X.A preprocessing framework and approach for web applications[J].Journal of Web Engineering,2004,2:175-191.
-
10张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001.
-
1杨武,唐蓉,任丽芸.重复网页检测算法综述[J].电脑知识与技术,2010,6(8):6237-6239. 被引量:1
-
2小黔.快速关闭相似网页[J].网友世界,2006(17):33-33.
-
3赵坤.网页过滤中文本内容的抽取技术研究[J].硅谷,2010,3(8):64-64.
-
4连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量:7
-
5草无缺.揪出相似网页[J].电脑迷,2006,0(13):77-77.
-
6Jing.快速揪出相似网页[J].网友世界,2006(14):28-28.
-
7郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量:8
-
8杨文忠,彭曙蓉.简报近似网页的一种检测算法[J].微计算机应用,2006,27(1):22-22.
-
9熊飞.Google谷歌搜索技巧大全[J].电子乐园,2009(23):36-38.
-
10毛晓蛟.一种双层网页去重方法研究[J].电脑编程技巧与维护,2010(20):66-67.