基于正文结构和长句提取的网页去重算法被引量：13

Detection and elimination of similar Web pages based on text structure and extraction of long sentences

下载PDF

导出

摘要针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。 As regard to the feature of the similarity and that of the text structure of Web pages,this paper proposed a dynamic,stratified and robust algorithm to detect and delete similar Web pages.By this method,expressed the texts of Web pages in the style of text structure trees.Then,thus implemented a dynamic algorithm to extract features of texts and a layer fingerprint algorithm to calculate similarity.That the extraction of the features made use of the algorithm of extraction of long sentences guarantees the robustness.The experimental results show that the method can carry out accurate detection concerning completely similar Web pages and partly similar ones.

作者黄仁冯胜杨吉云刘宇敖民

机构地区重庆大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2010年第7期2489-2491,2497,共4页 Application Research of Computers

基金重庆市自然科学基金资助项目(CSTC2007BB3169)

关键词网页去重正文结构树长句提取层次指纹 detection and elimination of similar Web pages text structure tree extraction of long sentences layer fingerprint

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2LI Wei,LIU Jian-yi,WANG Cong.Web document duplicate removal algorithm based on keyword sequences[C] //Proc of Natural Language Processing and Knowledge Engineering.Valencia:IEEE Press,2005:511-516.
3HEINTZE N.Scalable document fingerprinting[C] //Proc of the 2nd USENIX Workshop on Electronic Commerce.Oakland,CA:Citeseer,1996:191-200.
4BRODER A Z,GLASSMAN S C,MANASSE M S.Syntactic clustering of the Web[C] //Proc of the 6th International Web Conference.Amsterdam:Elsevier Science Publisher B.V,1997:1157-1166.
5魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
6刘四维,章轶,夏勇明,钱松荣.基于HTML标记和长句提取的网页去重算法[J].微型电脑应用,2009(8):30-32. 被引量：2
7CORMEN T H,LEISERSON C E,RIVEST R L,et al.Introduction to algorithms[M].Massachusetts:MIT Press,2002:273-293.

二级参考文献15

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2Thomas H. Cormen et al. Introduction to Algorithms[M]. 北京:高等教育出版社,2002.273-293.
3Broder A. Syntactic Clustering of the Web [C] // 6th International World Wide Web Conference Apr. 1997: 393-404.
4Fetterly D. On the Evolution of Clusters of Near- Duplicate Web Pages [C] // 1st Latin American Web Congress. Nov.2003:37-45.
5Rabm M.Fingerprinting by random polynomials.Report TR- 15- 81 [ R ]. Center for Research m Computing Technology, Harvard University,1981.
6Salton G, McGill M.,Introduction to Modem Information Retrieval[M],New York:McGraw-Hill, 1983.
7[1]Narayanan Shivakumar,et al.Finding near-replicas of documents on the web[DB/OL].http://dbpubs.stanford.edu/pub/1998-31.
8[2]J.Liu,M.Lei,J.Wang,and B.Chen.Digging for gold on the web:Experience with the WebGather[A].Proc.of the 4th Inter.Conf.on High Performance Computing in the Asia-Pacific Region[C],Beijing,P.R.China,May 2000:751-755.
9[3]U.Manber.Finding similar files in a large file system[R].Technical Report TR 93-33,University of Arizona,Tuscon,Arizona,October 1993.
10中国互联网信息中心.第十九次中国互联网络发展状况统计报告[EB/OL].[2007-05-05].http://www.cnnic.net.cn/index/OE/00/11/index.htm.

共引文献30

1徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
2张明辉,王成耀,宋威.一种基于段落的分段签名近似镜像新算法[J].情报杂志,2005,24(1):21-23. 被引量：2
3连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
4魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
5樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
6张曼,李弼程,林琛.基于SHA-1的邮件去重算法[J].计算机工程,2008,34(11):270-272. 被引量：1
7杨申彦,黄青松.网页去重在基于Web企业竞争情报平台中的应用与研究[J].云南民族大学学报（自然科学版）,2008,17(4):380-382.
8刘峰,王儒敬.MD5算法在农业数据消重中的应用[J].计算机系统应用,2009,18(1):104-106. 被引量：2
9杨伟杰,戴汝为,崔霞.一种基于信息检索技术的网络新闻影响力分析方法[J].软件学报,2009,20(9):2397-2406. 被引量：19
10梁叶,梁京章,阳红,叶云.近似镜像检测算法在文本消重中的应用研究[J].广西大学学报（自然科学版）,2010,35(2):320-323. 被引量：2

同被引文献127

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
5王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
6王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
7王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
8梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
9韦永壮,袁春风,黄宜华.CCDet:一种高效的大规模中文重复网页检测方法[J].计算机研究与发展,2013,50(S2):140-152. 被引量：4
10王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81

引证文献13

1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
2张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
3程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
4熊忠阳,牙漫,张玉芳.基于网页正文结构和特征串的相似网页去重算法[J].计算机应用,2013,33(2):554-557. 被引量：11
5罗元.网页净化及去重研究综述[J].现代计算机,2013,19(10):3-7. 被引量：1
6李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量：5
7丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
8闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
9王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
10贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2

二级引证文献28

1程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
2李书攀.基于HTML标签扩展的智能搜索引擎设计[J].南阳师范学院学报,2013,12(12):54-58.
3闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
4高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
5王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
6李恒新,韩坚华.关系型数据库数据的高效判重[J].华南师范大学学报（自然科学版）,2015,47(1):121-126. 被引量：2
7卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量：2
8贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2
9郭艳卿,赵锐,孔祥维,付海燕,蒋金平.基于事件要素加权的新闻摘要提取方法[J].计算机科学,2016,43(1):237-241. 被引量：9
10杜洪涛,孟庆国,王君泽.互联网数据在舆情研判中的效用研究[J].中国软科学,2016(4):34-44. 被引量：7

1张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
2刘四维,章轶,夏勇明,钱松荣.基于HTML标记和长句提取的网页去重算法[J].微型电脑应用,2009(8):30-32. 被引量：2
3魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
4张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
5丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
6徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
7周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
8张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
9马辉.网页去重技术问题研究[J].移动信息,2015(8):67-67.
10闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1

计算机应用研究

2010年第7期

浏览历史

内容加载中请稍等...

基于正文结构和长句提取的网页去重算法被引量：13

参考文献7

二级参考文献15

共引文献30

同被引文献127

引证文献13

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于正文结构和长句提取的网页去重算法 被引量：13

参考文献7

二级参考文献15

共引文献30

同被引文献127

引证文献13

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于正文结构和长句提取的网页去重算法被引量：13