期刊文献+

基于类别特征域的文本分类特征选择方法 被引量:21

A Feature Selection Method Based on Class Feature Domains for Text Categorization
下载PDF
导出
摘要 特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。 Featuro selection is one of the key problems in text categorization, The chief obstacles to feature selection are noise and sparseness. This paper presents a novel feature selection method which is based on class feature domains. First, we will make use of the combined feature selection method to remove noisy featuros from the original feature space and extract candidate features. That is, we' ll take off low frequency words using Document Frequency method firstly and then select candidate features using Mutual Information method. Then, we will construct a class featuro domain for each class and conquer the sparseness of trainning datas by merging and strengthening the candidate features which appear in the class feature domains. Experiments show that our method is much better than kinds of traditional feature selection methods and it can improve the performance of text categorization systems markedly.
出处 《中文信息学报》 CSCD 北大核心 2005年第6期21-27,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金重点资助项目(60435020)
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别特征域 computer application Chinese information processing text categorization feature selection class feature domains
  • 相关文献

参考文献10

二级参考文献39

  • 1邹涛.基于WWW的信息发现技术研究(博士学位论文)[M].南京:南京大学,1999..
  • 2黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 3鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 5黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 6Koller D. Hierarchically Classifying Documents Using Very Few Words. Proceedings of tile Fourteenth International Conference on Machine Learning (ICML-97), 1997.
  • 7Zhang Li, Li Xing. Net-compass, A Search Engine for Chinese Web Pages[A]. The First AEARU Workshop on Web Technology[C] ,Kyoto, Japan, 1998: 1 0-15.
  • 8邹涛,博士学位论文,1999年
  • 9Yang Y,Information Retrieval J,1999年
  • 10Yang Y,INRT J,1998年

共引文献734

同被引文献235

引证文献21

二级引证文献263

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部