摘要
在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
出处
《中国索引》
2009年第1期11-14,共4页
Journal of the China Society of Indexers
参考文献11
-
1Zhao Li,Wee Keong Ng,Aixin Sun.Web data extraction based on structural similarity[J].Knowledge and Information Systems.2005(4)
-
2http://news.netcraft.com/archives/web-server-survey.html .
-
3Bharat K,Broder A.Z.,Dean J.et al.A comparison of techniques to find mirrored hosts on the WWW[].Journal of the American Society for Information Science.2000
-
4Cao Yujuan,Niu ZhenDong.Extracting Informative Blocks from Web Pages[].Proceedings of the Seventh In-ternational Conference on Advanced Language Processing and Web Information Technology(ALPIT).2008
-
5J. Dean and M. Henzinger.Finding related pages in the world wide web[]..1999
-
6Gurmeet Singh Manku.Detecting Near Duplicates for Web Crawling[].International World Wide Web Conference Committee(IWC).2007
-
7Broder,A,Glassman,S,Manasse,S.Syntactic clustering of the web[].Proceedings of the Sixth International World Wide Web Conference (WWW).1997
-
8HEINTZE,N.Scalable document fingerprinting[].Proceedings of the Second USENIX Electronic Commerce Workshop.1996
-
9Shaozhi Ye,Ji-Rong Wen.A systematic study on parameter correlations in large scale duplicate document detection[].Proceedings oft he th Pacific-Asia Conference on Knowledge Discovery and Data Mining.2006
-
10Chowdhury A,Frieder O,Grossman D,McCABE M C.Collection statistics for fast duplicate document detection[].ACM Transactions on Information Systems.2002
同被引文献36
-
1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量:51
-
2王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量:21
-
3王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报(自然科学版),2010,30(2):61-64. 被引量:5
-
4陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量:17
-
5高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量:13
-
6Narayanan Shivakumar. Finding Near - replicas of Documents on the Web[C].In: Proceedings of Workshop on Web tabases (WebDB' 98). 1998,204- 212.
-
7中国互联网络信息中心.第二十三次中国互联网络发展状况统计报告[R/OL].北京:中国互联网络信息中心,2009.htto://www.cnnic.net.cn/uploadfiles/doe/2009/1/13/92209.doc.
-
8杜强等.SPSS统计分析从入门到精通.北京:人民邮电出版社,2009.
-
9张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001.
-
10中国互联网络信息中心.第21次中国互联网络发展状况统计报告.中国互联网络信息中心网站,2008-01-18
引证文献5
-
1王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报(自然科学版),2010,28(1):22-24. 被引量:1
-
2刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量:6
-
3沈岩.基于文本聚类的工具书查重方法研究[J].辞书研究,2011(6):94-103.
-
4李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量:5
-
5李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.
二级引证文献12
-
1熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量:2
-
2闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量:1
-
3王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量:4
-
4李恒新,韩坚华.关系型数据库数据的高效判重[J].华南师范大学学报(自然科学版),2015,47(1):121-126. 被引量:2
-
5罗明宇,凌捷.基于DOM树序列值比对的SQL注入漏洞检测[J].计算机工程与设计,2015,36(2):350-354. 被引量:3
-
6卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量:2
-
7杨跃东,鲁欣正.国家教育考试网上有害信息自动监测模型研究[J].中国考试,2016(3):8-14. 被引量:1
-
8栗迎结,任洪敏.基于Selenium的SQL注入漏洞检测系统的研究[J].现代计算机,2016,22(14):20-24. 被引量:2
-
9王茹,严明,王柳舒.基于改进的TF-IDF软件测试错误信息分析方法[J].计算机应用,2016,36(A02):259-261. 被引量:1
-
10黄伟建,杨海龙.Hadoop下改进布隆过滤器算法的网页去重[J].计算机工程与科学,2017,39(2):285-290. 被引量:1
-
1曹玉娟,牛振东,赵堃,彭学平.基于概念和语义网络的近似网页检测算法[J].软件学报,2011,22(8):1816-1826. 被引量:15
-
2杨文忠,彭曙蓉.简报近似网页的一种检测算法[J].微计算机应用,2006,27(1):22-22.
-
3张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
-
4徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量:6
-
5周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量:5
-
6张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量:2
-
7杜海刚,李先国.一种基于关键词的近似网页检测算法[J].微计算机应用,2008,29(2):41-45. 被引量:2
-
8彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量:10
-
9闫亮,李先国.基于网页特征关键词的近似检测算法[J].科学技术与工程,2009,9(4):919-923.
-
10马辉.网页去重技术问题研究[J].移动信息,2015(8):67-67.