期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于后缀树模型的文本实时分类系统的研究和实现 被引量:12
1
作者 郭莉 张吉 谭建龙 《中文信息学报》 CSCD 北大核心 2005年第5期16-23,共8页
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算... 本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N),远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。 展开更多
关键词 计算机应用 中文信息处理 实时文本分类 向量空间模型 后缀树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部