一种基于重复串的STC改进算法

A new STC algorithm based on repeats

下载PDF

导出

摘要目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。 Current de-duplication algorithms mainly focus on keywords de-duplication or semantic fingerprint de-duplication and may cause error when processing Web pages.This paper using the repeats as mapped sentences to make the suffix tree. Using the inverted index method to storage the data. Experiment results show that this method can find similar Web pages efficiently,this algorithm can reach a high precision in mono-language deletion of duplicated web pages, and this algorithm can also reach a maximum precision when it is applied to deletion of duplicated web pages.

作者殷波蒋华

机构地区桂林电子科技大学大学计算机与控制学院

出处《微计算机信息》 2009年第27期206-208,共3页 Control & Automation

关键词网页去重 STC算法重复串 detect duplication technology STC algorithm repeats

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1黄永光.基于网页挖掘的搜索引擎若干技术的研究[J].哈尔滨工业大学,2006.
2徐晓哲.基于多Agent的Internet上构件获取技术研究[J].哈尔滨工程大学,2007.
3赵渊.基于特征句提取的网页去重研究[J].哈尔滨工业大学,2007.
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
5吴丽辉.个性化的Web信息采集技术研究[J].中国科学院研究生院(计算技术研究所),2005.
6周焕银,刘金生,李明,王仁波.基于故障诊断的数据挖掘算法研究[J].微计算机信息,2008(1):151-153. 被引量：8
7Debar H ,et al.Fixed vs.variable-length patterns for detecting suspicious process.In J.J.Quisquater, Y.De swarte,C.Meadows,D. Gollmann.eds [C]. Proc.of the 1998 ESORICS Conference,humber 1485 in LNCS,sep.1998.1-16.
8Han J., Kamber M.: Data Mining: Concepts and Techniques [M]. Morgan Kaufmann Publishers, 550 pages. ISBN 1-55860-489-8, August 2000.
9Chien L F. PAT-tree-based Adaptive Key Phrase Extraction for Intelligent Chinese Information Retrieval [J]. Information Process and Management, 1999, 35(4): 501-521.

二级参考文献8

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4孙振龙,宋广军,李晓晔,黄迎春.基于数据挖掘技术的Snort入侵检测系统的研究[J].微计算机信息,2006,22(11X):212-214. 被引量：9
5[3]Peng C et al.Multi-valued neural network and the knowledge acquisition method by the rough sets for ambiguous recognition problem.Proc.Of the IEEE International Conference on Systems,Man and Cybemetics,Beijing,1996,736-740)
6[4]Jelonek Jetal.Rough Set reducts of attributes and their domains for neural networks.Computational Intelligence,1995,11 (2):339-347
7[6]Lingras P.Comparison of neofuzzy and rough neural networks Information Science,1998,9:661～668
8李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101

共引文献76

1王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
2郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
3许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
4刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
5冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
6张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
7时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
8王建冬,王继民,田飞佳.一种基于内容规则的网页去噪算法[J].现代图书情报技术,2008(3):51-54. 被引量：4
9时达明,林鸿飞,赵晶.基于模板化的Blog信息抽取[J].计算机工程与应用,2008,44(9):156-158. 被引量：5
10万乐,左万利,高金.基于主题的网页噪音去除机制[J].计算机工程与设计,2008,29(8):2072-2074. 被引量：8

1骆绍烨.一种基于用户兴趣的STC改进算法[J].江南大学学报（自然科学版）,2015,14(1):85-89.
2马如林,蒋华,张庆霞.基于贝叶斯方法和信息指纹的博客评论过滤[J].计算机工程与应用,2008,44(24):159-161. 被引量：2
3林庆,袁晓峰,吴旻.中文Web文档聚类算法研究[J].计算机工程与设计,2009,30(20):4759-4761. 被引量：3
4冯冰洁,杨天奇.后缀树聚类算法在元搜索引擎中的应用[J].微计算机信息,2010,26(3):204-206. 被引量：5
5张海燕,陈治平,等.基于2—grams短语标引的关键词自动抽取[J].绍兴文理学院学报（自然科学版）,2002,22(3):52-54.
6史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
7徐宁.基于若干技术的舆情监控系统的设计与实现[J].中国科技博览,2015,0(5):128-128.
8仇傲,刘西恩,陈洪海,孙志峰.随钻声波测井仪电路系统设计及关键技术实现[J].石油管材与仪器,2015,1(1):23-26. 被引量：7
9杨海涛,石磊,卫琳.一个基于搜索结果的个性化推荐系统[J].计算机工程与应用,2006,42(32):150-153. 被引量：3
10冯冰洁,王娜.改进的Lingo算法在元搜索引擎中的应用[J].信息与电脑（理论版）,2013,0(6):154-155.

微计算机信息

2009年第27期

浏览历史

内容加载中请稍等...

一种基于重复串的STC改进算法

参考文献9

二级参考文献8

共引文献76

相关作者

相关机构

相关主题

浏览历史