期刊文献+

中文文本分类技术比较研究 被引量:3

A Comparative Study on Chinese Text Categorization Techniques
下载PDF
导出
摘要 文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。 Since there are some classic methods in feature selection, weight calculation and classification algorithms in text categorization, therefore, how to find a good combination becomes a problem worthy of study in the actual Chinese text categoriza-tion task.This paper is a comparative study of different combination of classical methods among three steps in Chinese text catego-rization.It is found that text classification obtained high performance, while using CHI feature selection technique, TFIDF weight calculation technique and SVM classify technique in the test, is an effective combination method.
作者 胡龙茂
出处 《安庆师范学院学报(自然科学版)》 2015年第2期49-53,共5页 Journal of Anqing Teachers College(Natural Science Edition)
关键词 文本分类 特征选择 权重计算 分类算法 text categorization feature selection weight calculation classifier algorithms
  • 相关文献

参考文献10

二级参考文献68

  • 1罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量:55
  • 2张静,王建民,何华灿.基于属性相关性的属性约简新方法[J].计算机工程与应用,2005,41(28):55-57. 被引量:18
  • 3王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量:23
  • 4初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量:14
  • 5黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 6Galavotti L,Sebastiani F,Simi M.Experiments on the Use of Feature Selection and Negative Evidence in Automated Text Categorization[C] //Proc.of ECDL'00.Lisbon,Portugal:[s.n.] ,2000:59-68.
  • 7Mladenic D,Brank J,Grobelnik M,et al.Feature Selection Using Linear Classifier Weights:Interaction with Classification Models[C] //Proc.of the 27th ACM SIGIR Conference on Research and Development in Information Retrieval.Sheffield,United Kingdom:ACM Press,2004:234-241.
  • 8Chih-Wei Hsu,Chih-Chung Chang,Chih-Jen Lin.A Practical Guide to Support Vector Classification[EB/OL].(2009-05-19).http://www.csie.ntu.edu.tw/~cjlin.
  • 9谭松波.中文情感挖掘语料--chnsenticorp[EB/OL].[2010-05-01].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm.
  • 10Pang B ,Lee L ,Vaithyanathan S. Thumbs up:Sentiment Classifi- cation Using Machine Learning Techniques[ C ]. In Proc. Conf. on Empirical Methods in Natural Language Processing,2002:79- 86.

共引文献400

同被引文献35

引证文献3

二级引证文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部