摘要
大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法,通过对语言中标点标记的自然节奏进行分析,获取其特征,应用贝叶斯分类器,可以快速高效地完成文本分类任务。这种文本分类方法与当前主流基于词条特征的文本分类方法不同,不需要理解和分析语义,即无需分析文章中的词条,特征空间小,数据稀疏性现象不明显,文本分类效果显著。
Large scale documents category is very complex in text analysis. A new method based on language nature rhythm. Analysing the feature marked by punctuations in language, using Bayesian classifier, text category can be finished efficiently. This method is different from the others, without understanding any words and semantic. It is easy to get a remarkable effect with a small feature space and weak data sparsity.
出处
《计算机工程与应用》
CSCD
2012年第30期28-32,共5页
Computer Engineering and Applications
基金
天津市高等学校科技发展基金项目(No.20110819)