基于HTML标记和长句提取的网页去重算法被引量：2

Duplicate Web Page Elimination Based on HTML and Extraction of Long Sentence

下载PDF

导出

摘要提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。 We have developed an efficient algorithm to eliminate the duplicate web pages. This algorithm takes advantage of HTML tags to filter the noise of a page, and extracts those long sentences that can represent a page, as the features of the page. And we use the number of long sentences that shared by two pages, as the metric of duplication. This algorithm uses a red-black tree to index those long sentences, and changes the elimination process into a search process. So that it can reduce the running time. The result of our experiments shows that this algorithm can efficiently and correctly eliminate duplicate web pages.

作者刘四维章轶夏勇明钱松荣

机构地区复旦大学通信工程系

出处《微型电脑应用》 2009年第8期30-32,5,共3页 Microcomputer Applications

关键词网页去重页面去杂长句红黑树 Duplicate web page elimination Page cleanup Long sentence Red-black tree

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Thomas H. Cormen et al. Introduction to Algorithms[M]. 北京:高等教育出版社,2002.273-293.
2Broder A. Syntactic Clustering of the Web [C] // 6th International World Wide Web Conference Apr. 1997: 393-404.
3Fetterly D. On the Evolution of Clusters of Near- Duplicate Web Pages [C] // 1st Latin American Web Congress. Nov.2003:37-45.
4Rabm M.Fingerprinting by random polynomials.Report TR- 15- 81 [ R ]. Center for Research m Computing Technology, Harvard University,1981.
5Salton G, McGill M.,Introduction to Modem Information Retrieval[M],New York:McGraw-Hill, 1983.

同被引文献11

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
3LI Wei,LIU Jian-yi,WANG Cong.Web document duplicate removal algorithm based on keyword sequences[C] //Proc of Natural Language Processing and Knowledge Engineering.Valencia:IEEE Press,2005:511-516.
4HEINTZE N.Scalable document fingerprinting[C] //Proc of the 2nd USENIX Workshop on Electronic Commerce.Oakland,CA:Citeseer,1996:191-200.
5BRODER A Z,GLASSMAN S C,MANASSE M S.Syntactic clustering of the Web[C] //Proc of the 6th International Web Conference.Amsterdam:Elsevier Science Publisher B.V,1997:1157-1166.
6CORMEN T H,LEISERSON C E,RIVEST R L,et al.Introduction to algorithms[M].Massachusetts:MIT Press,2002:273-293.
7A. Broder et al.Syntactic Clustering of the Web. 6th International World Wide Web Conference . 1997
8Andrei Broder,Michael Mitzenmacher.Network Applications of Bloom Filters:A Survey. Internet Mathematics . 2004
9Bloom,BH.Space/time trade-offs in hash coding with allowable errors. Communications of the ACM . 1970
10魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13

引证文献2

1徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
2黄仁,冯胜,杨吉云,刘宇,敖民.基于正文结构和长句提取的网页去重算法[J].计算机应用研究,2010,27(7):2489-2491. 被引量：13

二级引证文献19

1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
2张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
3程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
4熊忠阳,牙漫,张玉芳.基于网页正文结构和特征串的相似网页去重算法[J].计算机应用,2013,33(2):554-557. 被引量：11
5罗元.网页净化及去重研究综述[J].现代计算机,2013,19(10):3-7. 被引量：1
6李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量：5
7丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
8闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
9徐凯,沙瀛,李阳,单既喜,王晓岩.Twitter中重复消息的分析和处理[J].计算机工程与应用,2014,50(21):111-115.
10王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4

1张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
2张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
3黄仁,冯胜,杨吉云,刘宇,敖民.基于正文结构和长句提取的网页去重算法[J].计算机应用研究,2010,27(7):2489-2491. 被引量：13
4徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
5周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
6张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
7马辉.网页去重技术问题研究[J].移动信息,2015(8):67-67.
8闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
9黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
10徐朝辉,赵淑梅,闫付亮,秦杰.一种基于特征向量的改进DSC网页去重算法[J].科学技术与工程,2013,21(8):2250-2253. 被引量：1

微型电脑应用

2009年第8期

浏览历史

内容加载中请稍等...

基于HTML标记和长句提取的网页去重算法被引量：2

参考文献5

同被引文献11

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于HTML标记和长句提取的网页去重算法 被引量：2

参考文献5

同被引文献11

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于HTML标记和长句提取的网页去重算法被引量：2