期刊文献+

一种改进的特征选择方法在文本分类系统中的应用

The Application of an Improved Feature Selection in Text Categorization System
下载PDF
导出
摘要 本文在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型。该模型首先对文本进行分析,把文本表示成向量空间的形式。文本在经过预处理后,按一定规则提取关键词,关键词的提取中增加了对名词短语的识别。特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进。实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高。 This paper advances a new text categorization model combined with the method of different feature selection while presenting the background of text categorization and the insufficiency of the selection of Vector Space Model features. The texts are analyzed first by the shape of Vector Space Model to express them in the form of vector space. After pre-treating the texts,
出处 《学术问题研究》 2005年第1期94-98,共5页 Academic Research(Integrated Edition)
关键词 文本分类 特征选择 文档频数 互信息量 are extracted according to given rules including noun phrases. For feature selection, document frequency is combined with mutual information to get them improved. It is found that according to the experiment the precision of text categorization is definitely improved by using new classified method. Keywords:text categorization feature selection document frequency mutual information
  • 相关文献

参考文献9

二级参考文献26

  • 1赵伯璋 徐力.计算机中文信息处理(下册)[M].北京:宇航出版社,1988..
  • 2周水庚.中文文本数据库的若干关键技术研究:博士论文[M].上海:复旦大学,2000..
  • 3黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 4鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 5卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 6Mitchell T M. Machine Learning[M]. New York: McGraw-Hill, 1997.
  • 7McCallum A, Nigam K. A Comparison of Event Models for Naive Bayes Text Classification[A]. AAAI-98 Workshop on Learning for Text Categorization[C]. Madison, Wisconsin:AAAI Press, 1998. 509-516.
  • 8D Nauck, F Klawonn, R Kruse. Foundations of Neuro-Fuzzy System[M]. Chichester:J Wiley & Sons, 1997.
  • 9J R Quinlan. C4.5: Programs for Machine Learning[M]. San Mateo, CA:Morgan Kaufmann, 1993.
  • 10赵伯璋,计算机中文信息处理.下,1988年

共引文献508

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部