摘要
研究一种相关主题模型(CTM)与支持向量机(SVM)相结合的文本分类方法。该方法用CTM对数据集建模以降低数据的维度,用SVM对简化后的文本数据进行分类。为使CTM模型能够较好地对数据集进行建模,在该方法中用DBSCAN聚类方法对数据进行聚类,根据聚类所得到的聚类中心点数目确定CTM模型的主题参数。实验结果表明,该方法可以加快分类速度并提高分类精度。
A text classification method combining Correlated Topic Model(CTM) and Support Vector Machine(SVM) is proposed. In order to reduce the corpus's dimension, this method models the corpus, and classifies the simplified text date with SVM. With the aim of making the CTM model the corpus better, DBSCAN clustering method is used and chooses the cluster number as the model topic parameter of CTM. Experimental result shows that the method can accelerate the classification speed and improve the classification accuracy.
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第22期203-205,共3页
Computer Engineering
关键词
文本分类
相关主题模型
聚类
支持向量机
text classification
Correlated Topic ModeI(CTM)
clustering
SVM