基于特征串的大规模中文网页快速去重算法研究被引量：41

The Study on Large Scale Duplicated Web Pages of ChineseFast Deletion Algorithm Based on String of Feature Code

下载PDF

导出

摘要网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基于特征串的中文网页的快速去重算法 ,同时对算法进行了优化处理。实验结果表明该算法是有效的 ,大规模开放测试的重复网页召回率达 97 3% ,去重正确率达 99 5 %。 Reprinting of information between websites produces a great deal redundant web pages that not only waste storage resource but also bring many burdens to user in retrieval and reading.In this paper string of feature code based algorithm is developed to remove the duplicated web page after analyzing the feature of the redundant web page.The idea of fuzzy matching and information of content and structure of the text of web page are introduced into the algorithm,and the efficiency of the algorithm is optimized.The experiment results show that the algorithm is effective.The recall rate of duplicated web pages reaches 97.3%,and the precision rate of the duplication removal reaches 99.5% in large scale testing.

作者吴平博陈群秀马亮

机构地区智能技术与系统国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2003年第2期28-35,共8页 Journal of Chinese Information Processing

关键词计算机应用中文信息处理特征串模糊匹配去重算法冗余网页 computer application Chinese information processing String of Feature Code Fuzzy Matching Duplicate Removal Algorithm Redundant Web Pages

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
2[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
3[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
4[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
5[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.

同被引文献289

1黄俊红,范云,黄萍.双语平行语料库对齐技术述评[J].外语电化教学,2007(6):21-25. 被引量：20
2韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
3谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
5姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
6王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
7赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
8王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
9王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
10梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8

引证文献41

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
4谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
5魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
6连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
7黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
8罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
9钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量：6
10陈锦言,孙济洲,张亚平.基于傅立叶变换的网页去重算法[J].计算机应用,2008,28(4):948-950. 被引量：2

二级引证文献125

1牛华勇,窦一轩,夏晓雪.国内外财经文本分析研究综述[J].语料库语言学,2022,9(2):81-95.
2林英.媒体新闻数据自动采集的实践与改进思路探讨[J].图书馆学研究（应用版）,2010(9):38-41. 被引量：3
3吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
4王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145. 被引量：18
5吴铁洲,孙杨,夏防震.有标记的文本聚类方法研究[J].舰船电子工程,2009,29(4):104-106. 被引量：1
6李伟伟,贾志洋,周粉.一种应用于搜索引擎URL检索的hash算法设计与实现[J].现代计算机,2009,15(4):113-115. 被引量：1
7贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量：18
8张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8
9周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
10杨光熠.热点新闻的采集与发布[J].黑龙江科技信息,2010(14):174-174.

1罗钊航,李旭伟.基于搜索结果的聚类算法[J].计算机与现代化,2012(11):35-38.
2王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
3沈盈洪,丰翔龙,黄荣游.基于网页聚类的搜索结果优化算法研究[J].计算机应用,2010,30(A01):51-53. 被引量：3
4罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
5魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
6程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.

中文信息学报

2003年第2期

浏览历史

内容加载中请稍等...

基于特征串的大规模中文网页快速去重算法研究被引量：41

参考文献5

同被引文献289

引证文献41

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

基于特征串的大规模中文网页快速去重算法研究 被引量：41

参考文献5

同被引文献289

引证文献41

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

基于特征串的大规模中文网页快速去重算法研究被引量：41