期刊文献+

不同情境下中文文本分类模型的表现及选择 被引量:4

Performance and Choice of Chinese Text Classification Models in Different Situations
下载PDF
导出
摘要 针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考. N-Gram,Nave Bayes,K nearest neighbors and TF-IDF are classical text classification models with a wide range of applications.People are often puzzled about which classification model should be used in a certain Chinese text classification task.This paper collected more than ten thousand Chinese news texts,and designed a series of experiments to analyze the performance of these models in varied situations from classification parameters,training data scale,text length and skewed data sets.The characteristics of these models were summarized,which provides a practical guide for the model selection in Chinese text classification tasks.
出处 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第4期141-146,共6页 Journal of Hunan University:Natural Sciences
基金 国家自然科学基金资助项目(71171076)~~
关键词 中文文本 文本分类 数据挖掘 情报分析 Chinese text text classification data mining information analysis
  • 相关文献

参考文献17

二级参考文献125

共引文献714

同被引文献14

引证文献4

二级引证文献14

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部