摘要
传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题。为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用替在语义索引方法获得原始特征向量的潜在语义结构。实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维。
In traditional vector space modal, key words are used to represent the text, but the problems ofpolysemy and synonymy are not taken into account. To solve the problem, a text classification method combining latent semantic indexing with support vector machine is presented, using latent semantic indexing to obtain latent semantic structure of original feature vector. The experimental result shows that comparing to using the SVM solely, the dimension of feature vector drops largely with the accuracy of this method dropping a little.
出处
《计算机工程与设计》
CSCD
北大核心
2007年第23期5762-5764,共3页
Computer Engineering and Design
基金
甘肃省科技攻关计划基金项目(2GS047-A52-002-03)
关键词
潜在语义索引
奇异值分解
支持向量机
文本分类
机器学习
latent semantic indexing
single value decomposition
support vector machine
text classification
machine learning