期刊文献+

中文文本分类中的特征选择研究 被引量:165

Study on Feature Selection in Chinese Text Categorization
下载PDF
导出
摘要 本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。 This paper introduces and compares eight feature selection methods in text categorization. Among the eight methods, Multi Class Odds Ratio(MC OR), a variant of Odds Ratio which is often used in binary classification, and a new feature selection method based on Class Discriminating Words(CDW) are proposed. Combined with the classic VSM classifier based on cosine similarity and the Nave Bayes classifier, training and test are carried out on two text sets with different class distribution. As the results indicate, MC OR and CDW gain the best selecting effect.
出处 《中文信息学报》 CSCD 北大核心 2004年第3期17-23,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金资助项目 ( 6 0 0 0 30 14 6 0 1710 37)
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别区分词 computer application Chinese information processing text categorization feature selection class discriminating words
  • 相关文献

参考文献8

  • 1Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
  • 2Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
  • 3Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
  • 4Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Nave Bayees[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled:Morgan Kaufmann,1999:258-267.
  • 5王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量:17
  • 6范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量:53
  • 7刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量:48
  • 8梁久祯 兰东俊 扈旻.基于先验知识的网页特征压缩与线性分类器设计[A]..第十二届全国神经计算学术大会论文集[C].北京:人民邮电出版社,2002.494-501.

二级参考文献6

共引文献112

同被引文献1205

引证文献165

二级引证文献912

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部