基于关键长句及正文长度预分类的网页去重算法研究被引量：2

Research on Based on Web Algorithm Based on Key Long Sentence and Text Length Preliminary Classification

下载PDF

导出

摘要伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上,针对网页正文的结构特征,提出了一种基于关键长句及正文长度预分类的网页去重算法的核心思想。实验证明,该算法具有较高的召回率及准确率,在重复网页的过滤中有着较好的应用前景与较高的研究价值。 As to improve the quality of search engine service one of the key problems, web page to heavy technology has become web information processing is the most important link. Based on the traditional web page to heavy technology, based on the features of the structure of web text, this paper puts forward a kind of based on key long sentences and tex^t length preliminary classification of web page to heavy algorithm core ideas. Experiments show that the algorithm has high- er recall ratio and accuracy, the duplicated web pages in the filter has a good application prospect and high research value.

作者周杨

机构地区军事经济学院基础部计算机教研室

出处《软件导刊》 2012年第10期48-50,共3页 Software Guide

关键词网页去重关键长句预分类 Web Page Key Long Sentence Preliminary Classification

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2张刚;刘挺.大规模网页快速去重算法[A],2001.
3魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
4吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

二级参考文献18

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
3[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
4[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
5[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
6[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
7[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
8[4]J.Zhou,P.Larson,J.C.Freytag,W.Lehner.Efficient Exploitation of Similar Subexpressions for Query Processing.ACM SIGMOD,2007:533-544.
9[6]Junghoo Cho.N.Shivakumar et al.Finding replicated web collections.In Proceedings of 2000 ACM International Conference on Management of Data(SIGMOD),May 2000.
10[7]Shaozhi Ye,Ji-RongWen,Wei-Ying Ma.A systematic study on parameter correlations in large-scale duplicate document detection.Knowledge and Information Systems,2007,14:217-232.

共引文献50

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
4谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
5魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
6连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
7黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
8罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
9钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量：6
10陈锦言,孙济洲,张亚平.基于傅立叶变换的网页去重算法[J].计算机应用,2008,28(4):948-950. 被引量：2

同被引文献10

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2曹玉娟,牛振东,彭学平,江鹏.一个基于特征向量的近似网页去重算法[J].中国索引,2009,7(1):11-14. 被引量：5
3周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
4黄仁,冯胜,杨吉云,刘宇,敖民.基于正文结构和长句提取的网页去重算法[J].计算机应用研究,2010,27(7):2489-2491. 被引量：13
5李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
6熊忠阳,牙漫,张玉芳.基于网页正文结构和特征串的相似网页去重算法[J].计算机应用,2013,33(2):554-557. 被引量：11
7王洪亚,吴西送,任建军,赵银龙.分布式平台下MinHash算法研究与实现[J].智能计算机与应用,2014,4(6):44-46. 被引量：5
8姜霖,王东波.采用连续词袋模型(CBOW)的领域术语自动抽取研究[J].现代图书情报技术,2016(2):9-15. 被引量：20
9黄菊.一种基于语义向量空间模型的作业查重算法[J].电子科学技术,2016,3(6):786-789. 被引量：2
10吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

引证文献2

1李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.
2Suzhen Wang,Lu Zhang,Yanpiao Zhang,Jieli Sun,Chaoyi Pang,Gang Tian,Ning Cao.Natural Language Semantic Construction Based on Cloud Database[J].Computers, Materials & Continua,2018(12):603-619.

1张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
2崔明.Google衍生网络服务概览[J].图书馆学研究,2008(4):54-56.
3彭祯艺.RSS带来“个性化搜索”[J].互联网周刊,2004(8):56-57. 被引量：20
4谢阗地.网易这十年[J].互联网周刊,2008(19):30-33. 被引量：2
5非凡.解密Google成功七大密码[J].中国民营科技与经济,2008(5):83-83. 被引量：1
6刘全飞,周相兵.基于lucene的站群全文检索系统设计与实现[J].电脑与信息技术,2015,23(1):36-39. 被引量：1
7徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
8周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
9佐伯真也,大石基之,南庭（译）.SSD向HDD发起挑战[J].电子设计应用,2009(6):33-37.
10张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2

软件导刊

2012年第10期

浏览历史

内容加载中请稍等...

基于关键长句及正文长度预分类的网页去重算法研究被引量：2

参考文献4

二级参考文献18

共引文献50

同被引文献10

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于关键长句及正文长度预分类的网页去重算法研究 被引量：2

参考文献4

二级参考文献18

共引文献50

同被引文献10

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于关键长句及正文长度预分类的网页去重算法研究被引量：2