期刊文献+

一种基于重复串的STC改进算法

A new STC algorithm based on repeats
下载PDF
导出
摘要 目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。 Current de-duplication algorithms mainly focus on keywords de-duplication or semantic fingerprint de-duplication and may cause error when processing Web pages.This paper using the repeats as mapped sentences to make the suffix tree. Using the inverted index method to storage the data. Experiment results show that this method can find similar Web pages efficiently,this algorithm can reach a high precision in mono-language deletion of duplicated web pages, and this algorithm can also reach a maximum precision when it is applied to deletion of duplicated web pages.
作者 殷波 蒋华
出处 《微计算机信息》 2009年第27期206-208,共3页 Control & Automation
关键词 网页去重 STC算法 重复串 detect duplication technology STC algorithm repeats
  • 相关文献

参考文献9

  • 1黄永光.基于网页挖掘的搜索引擎若干技术的研究[J].哈尔滨工业大学,2006.
  • 2徐晓哲.基于多Agent的Internet上构件获取技术研究[J].哈尔滨工程大学,2007.
  • 3赵渊.基于特征句提取的网页去重研究[J].哈尔滨工业大学,2007.
  • 4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
  • 5吴丽辉.个性化的Web信息采集技术研究[J].中国科学院研究生院(计算技术研究所),2005.
  • 6周焕银,刘金生,李明,王仁波.基于故障诊断的数据挖掘算法研究[J].微计算机信息,2008(1):151-153. 被引量:8
  • 7Debar H ,et al.Fixed vs.variable-length patterns for detecting suspicious process.In J.J.Quisquater, Y.De swarte,C.Meadows,D. Gollmann.eds [C]. Proc.of the 1998 ESORICS Conference,humber 1485 in LNCS,sep.1998.1-16.
  • 8Han J., Kamber M.: Data Mining: Concepts and Techniques [M]. Morgan Kaufmann Publishers, 550 pages. ISBN 1-55860-489-8, August 2000.
  • 9Chien L F. PAT-tree-based Adaptive Key Phrase Extraction for Intelligent Chinese Information Retrieval [J]. Information Process and Management, 1999, 35(4): 501-521.

二级参考文献8

共引文献76

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部