一个基于特征向量的近似网页去重算法被引量：5

下载PDF

导出

摘要在搜索引擎的检索结果页面中，用户经常会得到内容相似的重复页面，它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度，提出一种基于特征向量的大规模中文近似网页检测算法DDW（Detect near—Duplicate Web Pages）。试验证明，比起其他网页去重算法（I—Match），DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度，在大规模实验中获得良好测试结果。

作者曹玉娟牛振东彭学平江鹏

机构地区北京理工大学计算机科学技术学院北京航天飞行控制中心

出处《中国索引》 2009年第1期11-14,共4页 Journal of the China Society of Indexers

关键词网页去重算法特征向量近似网页支持向量机

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] O151.21 [理学—基础数学]

引文网络
相关文献

参考文献11

1Zhao Li,Wee Keong Ng,Aixin Sun.Web data extraction based on structural similarity[J].Knowledge and Information Systems.2005(4)
2http://news.netcraft.com/archives/web-server-survey.html .
3Bharat K,Broder A.Z.,Dean J.et al.A comparison of techniques to find mirrored hosts on the WWW[].Journal of the American Society for Information Science.2000
4Cao Yujuan,Niu ZhenDong.Extracting Informative Blocks from Web Pages[].Proceedings of the Seventh In-ternational Conference on Advanced Language Processing and Web Information Technology(ALPIT).2008
5J. Dean and M. Henzinger.Finding related pages in the world wide web[]..1999
6Gurmeet Singh Manku.Detecting Near Duplicates for Web Crawling[].International World Wide Web Conference Committee(IWC).2007
7Broder,A,Glassman,S,Manasse,S.Syntactic clustering of the web[].Proceedings of the Sixth International World Wide Web Conference (WWW).1997
8HEINTZE,N.Scalable document fingerprinting[].Proceedings of the Second USENIX Electronic Commerce Workshop.1996
9Shaozhi Ye,Ji-Rong Wen.A systematic study on parameter correlations in large scale duplicate document detection[].Proceedings oft he th Pacific-Asia Conference on Knowledge Discovery and Data Mining.2006
10Chowdhury A,Frieder O,Grossman D,McCABE M C.Collection statistics for fast duplicate document detection[].ACM Transactions on Information Systems.2002

同被引文献36

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
3王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
4陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
5高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
6Narayanan Shivakumar. Finding Near - replicas of Documents on the Web[C].In: Proceedings of Workshop on Web tabases (WebDB' 98). 1998,204- 212.
7中国互联网络信息中心.第二十三次中国互联网络发展状况统计报告[R/OL].北京:中国互联网络信息中心,2009.htto://www.cnnic.net.cn/uploadfiles/doe/2009/1/13/92209.doc.
8杜强等.SPSS统计分析从入门到精通.北京:人民邮电出版社,2009.
9张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001.
10中国互联网络信息中心.第21次中国互联网络发展状况统计报告.中国互联网络信息中心网站,2008-01-18

引证文献5

1王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报（自然科学版）,2010,28(1):22-24. 被引量：1
2刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量：6
3沈岩.基于文本聚类的工具书查重方法研究[J].辞书研究,2011(6):94-103.
4李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量：5
5李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.

二级引证文献12

1熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2
2闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
3王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
4李恒新,韩坚华.关系型数据库数据的高效判重[J].华南师范大学学报（自然科学版）,2015,47(1):121-126. 被引量：2
5罗明宇,凌捷.基于DOM树序列值比对的SQL注入漏洞检测[J].计算机工程与设计,2015,36(2):350-354. 被引量：3
6卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量：2
7杨跃东,鲁欣正.国家教育考试网上有害信息自动监测模型研究[J].中国考试,2016(3):8-14. 被引量：1
8栗迎结,任洪敏.基于Selenium的SQL注入漏洞检测系统的研究[J].现代计算机,2016,22(14):20-24. 被引量：2
9王茹,严明,王柳舒.基于改进的TF-IDF软件测试错误信息分析方法[J].计算机应用,2016,36(A02):259-261. 被引量：1
10黄伟建,杨海龙.Hadoop下改进布隆过滤器算法的网页去重[J].计算机工程与科学,2017,39(2):285-290. 被引量：1

1曹玉娟,牛振东,赵堃,彭学平.基于概念和语义网络的近似网页检测算法[J].软件学报,2011,22(8):1816-1826. 被引量：15
2杨文忠,彭曙蓉.简报近似网页的一种检测算法[J].微计算机应用,2006,27(1):22-22.
3张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
4徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
5周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
6张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
7杜海刚,李先国.一种基于关键词的近似网页检测算法[J].微计算机应用,2008,29(2):41-45. 被引量：2
8彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量：10
9闫亮,李先国.基于网页特征关键词的近似检测算法[J].科学技术与工程,2009,9(4):919-923.
10马辉.网页去重技术问题研究[J].移动信息,2015(8):67-67.

中国索引

2009年第1期

浏览历史

内容加载中请稍等...

一个基于特征向量的近似网页去重算法被引量：5

参考文献11

同被引文献36

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一个基于特征向量的近似网页去重算法 被引量：5

参考文献11

同被引文献36

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一个基于特征向量的近似网页去重算法被引量：5