期刊文献+

概率估算方法对中文文本特征提取质量的影响 被引量:2

Effects of Probability Estimate on Quality of Extracting Feature in Chinese Text Categorization
原文传递
导出
摘要 在文本自动分类中,目前有词频和文档频率统计这两种概率估算方法,采用的估算方法恰当与否会直接影响特征抽取的质量与分类的准确度。本文采用K最近邻算法实现中文文本分类器,在中文平衡与非平衡两种训练语料下进行了训练与分类实验,实验数据表明使用非平衡语料语料时,可以采用基于词频的概率估算方法,使用平衡语料语料时,采用基于文档频率的概率估算方法,能够有效地提取高质量的文本特征,从而提高分类的准确度。 In text categorization,there are two kinds of probability estimation methods that they based on word frequency and document sfrequency,the stimation method' approiproteion or not will directly affect on the quality of feature extraction and classification accuracy.In this paper,there are train and classification experiment in the balanced and unbalanced China training data based on K-nearest neighbor algorithm as Chinese text classifier,the experimental data show that there are good effect on text feature extraction when word frequency is used in balanced data and document frequency is used in inbalanced data,which it can get high-quality texts,and improve the accuracy of classification.
作者 郑伟 奉国和
出处 《情报科学》 CSSCI 北大核心 2011年第4期544-547,共4页 Information Science
基金 国家社科基金项目(编号:08CTQ003) 基张家口市科科学技术研究与发展项目(编号:0921045B) 河北北方学院自然科学青年基金项目(编号:Q2010008)
关键词 分本分类 特征抽取 概率估算 classification features extraction probability estimate
  • 相关文献

参考文献9

二级参考文献44

  • 1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量:25
  • 2王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量:13
  • 3牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量:19
  • 4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:383
  • 5黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 6[1]Ricardo B,Yates B,Riberiro N.现代信息检索[M].北京:机械工业出版社,2005.15-24
  • 7Yang Y.An evaluation of statistical approaches to text categorization[J].Information Retrieval,1999,1:69-90.
  • 8Sebastiani,F.Machine learning in automated text categorization[J],ACM Computing Surveys,2002,34(1):1-47.
  • 9Yang Y,Pedersen J.A Comparative Study on Feature Selection in Text Categorization[C]//Proceedings of the 14th International conference on Machine Learning,1997:412-420.
  • 10Yan J,Liu N,Zhang B,et al.OCFSj optimal orthogonal centroid feature selection for text categorization[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005:122-129.

共引文献398

同被引文献11

引证文献2

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部