期刊文献+

基于支持向量机的文本分类方法 被引量:3

Text categorization method based on SVM
下载PDF
导出
摘要 自动文本分类是信息处理的主要研究内容.分析中文文本分类的基本过程和主要技术,并用支持向量机(SVM)实现文本分类.比较多项式、径向基和Sigmoid核函数的分类效果.结果表明,将中文自然语言平台的语料库中1900个文本作为测试样本和训练样本,采用径向基核函数的SVM分类算法,实现中文文本分类的效果最佳,总准确率达到88.579%. Text automatic classification is the main part of information processing.This paper introduces the basic process and main techniques of Chinese text classification,and makes the text categorization system based on Support Vector Machines(SVM)come true.We compared the text classification results with three kinds of kernel functions of SVM.The experiments show that RBF kernel function can achieve the best result.
出处 《大庆石油学院学报》 CAS 北大核心 2008年第2期97-99,131-132,共3页 Journal of Daqing Petroleum Institute
基金 黑龙江省教育厅科学技术研究资助项目(11511015)
关键词 文本分类 支持向量机 核函数 特征项选择 text classification support vector machines kernel function feature selection
  • 相关文献

参考文献5

二级参考文献22

  • 1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量:26
  • 2张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量:47
  • 3Yiming Yang, An evaluation of statistical approaches to text categorization[J]. In:Journal of Information Retrieval,1999,1(2) :67 - 88.
  • 4Jian-yun Nie, Jianfeng Gao etc. On the Use of Words and N-grams for Chinese Information Retrieval[A]. Fifth International Workshop on Information Retrieval with Asian Languages [ C ]. Hong Kong, September 30 - October 1,2000.
  • 5陈克利.基于大规模真实文本的平衡语料分析与文本分类方法[C]..Advances in Computation of Oriental Languages[C].北京:清华大学出版社,2003..
  • 6YANG Y M. An evaluation of statistical approaches to text categorization [ J ]. Journal of Information Retrieval,1999,1(2) : 67 -88.
  • 7JOACHIMS T. Text categorization with support vector machines: learning with many relevant features [ C ]//Proceedings of ECML - 98, 10th European Conference on Machine Learning. Berlin: Springer, 1997 : 137 - 142.
  • 8YANG Y, LIU X. A re-examination of text categorization methods[ C ]//GEY F, HEARST M, RONG R, et al.Proc. of the 22nd ACM Int'l Conf. on Research and Development in Information Retrieval (SIGIR-99). Berkeley: ACM Press, 1999:42-49.
  • 9周雪忠.中文文本分类特征表示及分类方法比较研究[ C ]//Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
  • 10Ricardo Baeza-Yates,Berthier Ribeiro-Neto.Modern Information Retrieval.1999:27-30.

共引文献2314

同被引文献25

引证文献3

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部