摘要
借助文本分类系统软件,采用来自10个大类的中文文本数据,按照训练集与测试集2:1的比例,使用KNN和SVM分类算法,对数据集进行自动分类的实验。旨在通过具体的语料库实验,探讨文本自动分类的关键技术,分析、比较与评价实验结果,探讨文本分类中具体参数的设置和不同分类算法之优劣。
This paper describes the experimental process of automatic text categorization. The experiment chooses Chinese text data sets from 10 categories,and distributes the training set and test set based on the ratio of 1:2. With the help of text automatic classification system software,the experiment does automatic classification based on algorithms of KNN and SVM,in order to compare different classification algorithms and explore key technologies of text classification.
出处
《情报科学》
CSSCI
北大核心
2011年第9期1313-1317,1377,共6页
Information Science
基金
国家社会科学基金项目(09BTQ020)
关键词
自动分类
KNN
SVM
中文信息处理
automatic classification
KNN
SVM
Chinese information process