期刊文献+

数据挖掘中Web文档转换算法的设计与实现

DESIGN AND IMPLEMENTATION OF WEB DOCUMENTS CONVERSION ALGORITHM IN DATA MINING
下载PDF
导出
摘要 Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备. Web text information mining is one of the important applications of applying data mining technologies into informa- tion analysis and processing, how to transform web documents into data mining to the required format, i.e. web document pre- processing becomes a significant research task. In this paper the method is : from Internet to download a large number of web- page files, webpage files are converted into a text files, and then through the algorithm to word frequency statistics the data of the text files, delete non-using words, remove high frequency words, process etyma of substantive words, extract stems, elimi- nate redundant words and establish word lis4 thus extraction word list, alphabetical index to generate word frequency index, and the dictionary file comparison, get the word ID, the last generation of Reuters-21578 Database data format. This web docu ment data converted into standard data sets for classification and clustering to prepare in data mining.
作者 赵小龙 佘东
出处 《巢湖学院学报》 2011年第6期34-38,共5页 Journal of Chaohu University
基金 安徽省高校优秀人才基金项目(项目编号:2009SQRZ136) 巢湖学院一般项目(项目编号:XLY-200910) 安徽工业经济学院<学院科研管理信息系统开发研究>自然科学基金项目支持
关键词 WEB文档 数据挖掘 预处理 web documents data mining preprocessing
  • 相关文献

参考文献2

  • 1Hanan Ayad,Mohamed Kamel.Topic Discovery from Text using Aggregation of Different Clustering Methods. http://pami.uwateloo.ca . 2003
  • 2.

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部