传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息。该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善...传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息。该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果。证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系。在R eu ters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。展开更多
文摘传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息。该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果。证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系。在R eu ters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。