期刊文献+

一种改进的特征选择方法在文本分类系统中的应用 被引量:3

Application of Improved Feature Selection in Text Categorization System
下载PDF
导出
摘要 在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型.该模型首先对文本进行分析,把文本表示成向量空间的形式.文本在经过预处理后,按一定规则提取关键词,关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高. A new text categorization system using composite feature selection method was designed.Texts are described in the form of Vector Space Model through model analysis.After pretreatment for texts, which include noun phrase were extracted on the basis of rules from texts.On feature selection,document frequency was combined with mutual information,and performance was improved.Experiments show that the precision of text categorization is improved through using new method.
出处 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第B06期239-242,共4页 Journal of Xiamen University:Natural Science
关键词 特征选择 分类系统 应用 向量空间模型 规则提取 文本表示 分类模型 文本分类 互信息量 分类精度 关键词 预处理 文档 text categorization feature selection document frequency mutual information
  • 相关文献

参考文献9

二级参考文献22

  • 1钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量:12
  • 2赵伯璋 徐力.计算机中文信息处理(下册)[M].北京:宇航出版社,1988..
  • 3周水庚.中文文本数据库的若干关键技术研究:博士论文[M].上海:复旦大学,2000..
  • 4黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 5鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 6卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 7赵伯璋,计算机中文信息处理.下,1988年
  • 8周水庚,博士论文,2000年
  • 9邹淘,中文信息学报,1999年,13卷,3期,26页
  • 10黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页

共引文献509

同被引文献23

引证文献3

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部