期刊文献+

中文文本分类中特征选择方法的比较研究 被引量:3

下载PDF
导出
摘要 文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。
作者 刘洋
出处 《科技信息》 2007年第3期54-54,共1页 Science & Technology Information
  • 相关文献

参考文献6

二级参考文献28

  • 1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量:20
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:95
  • 3Apte C, Damerau F J, and Weiss S M. Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 1994, 12:233- 251.
  • 4Yang Yiming, and Pedersen J O. A comparative study on feature selection in text categorization. In- Proceedings of the 14^th International Conference on Machine Learning (ICML-97), 1997. 412 - 420.
  • 5Hwee Tou Ng, Wei Boon Goh, and Kok Leong Low. Feature selection, perceptron learning, and a usability case study for text categorization. In: Proceedings of the 20^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-97), 1997. 67 - 73.
  • 6Schutze H, Hull D A, and Pedersen J O. A comparison of classifiers and document representations for the routing problem. In: Proceedings of the 18^th ACM International Conference on Research and Development in Information Retrieval (SIGIR-95). 1995. 229 - 237.
  • 7Li Y H, and Jain A K. Classification of text document. The Computer Journal, 1998, 41(8) :537 - 546.
  • 8Deerwester S, Dumais S, Furnas D, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, 41 (6) : 391 - 407.
  • 9Thomas Hofmann. Probabilistic latent semantic indexing. In:Proceedings of the 22^nd ACM International Conference on Research and Development in Information Retrieval (SIGIR-99), 1999. 50-57.
  • 10Thomas K Landauer, Peter W Foltz, and Darrell Laham. An introduction to latent semantic analysis. Discourse Processes,1998, 25:259 - 284.

共引文献452

同被引文献30

引证文献3

二级引证文献14

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部