期刊文献+

基于TFIDF的文本特征选择方法 被引量:32

A Text Feature Selection Method based on TFIDF
下载PDF
导出
摘要 本文在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于术语频率和逆文档频率的特征选择方法TDF。采用KNN和NaiveBayes两种分类算法对该方法进行了测试。实验结果表明,TDF方法较其他几种方法有较好的分类精度。 This paper compares several feature selection methods in text categorization, proposes a new feature selection method based on term frequency and inverse document frequency. We evaluate the effect of feature selection by using KNN and Naive Bayes classifters. Experiments show that the method can gain better effect.
作者 柴玉梅 王宇
出处 《微计算机信息》 北大核心 2006年第08X期24-26,共3页 Control & Automation
基金 河南省自然科学基金(0211050100)
关键词 文本分类 特征选择 术语频率 逆文档频率 text categorization, feature selection, term frequency, inverse document frequency
  • 相关文献

参考文献6

  • 1Y.Yang.A Comparative Study on Feature Selection in Text Categorization[C].In: Proceeding of the Fourteenth International Conference on Machine Learning (ICML'97),412-420,1997.
  • 2Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Naive Bayes[A].Proceedings of the Sixteenth International Conference on Machine Learning [C].Bled:Morgan Kaufmann, 1999:258-267.
  • 3Lewis DD. Feature selection and feature extraction for text categorization [A].Proc. of Speech and Natural Language Workshop,February 1992.212-217.
  • 4代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量:228
  • 5王聃,贾云伟,林福严.人脸识别系统中的特征提取[J].微计算机信息,2005,21(07X):53-55. 被引量:18
  • 6李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报(自然科学版),2001,41(7):98-101. 被引量:78

二级参考文献7

共引文献310

同被引文献187

引证文献32

二级引证文献321

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部