摘要
在TF-IDF的基础上,提出了一种利用N-gram方法提取特征值的方法,能够很好的从一系列文本中取出某篇文本的特征值,并且可以对分词出现错误的一些连续的词语进行合并得到正确的一组词语,减少了分词出现的错误率。
In this paper,a new method of feature extraction is put forward using N-gram Algorithm,which can help to get better characteristic value of one document,and it can reduce the segmentation error by combining several consecutive words.
出处
《工业控制计算机》
2014年第2期51-51,共1页
Industrial Control Computer