摘要
朴素贝叶斯分类(naive Bayes)有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息。因此在训练文本时,对特征选择后产生的特征集用一种可行的方法考察它们之间的相关性,然后对相关程度高的特征进行合并处理。实验数据表明,这个改进的方法能提高朴素贝叶斯的算法精确度。
There is an "independence hypothesis" in Bayesian classifier method.examples of the emergence of each attribute are independent from the examples of other attributes appear ,the practical application of such conditions are not easily satisfied because the special version of the related characters may have new meaning in a special text. Therefore,while training the text,the characters of higher relevant can be amalgamated. The experimental data indicates, that this improved method can improve the algorithm accuracy appreciably.
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2007年第2期206-209,共4页
Journal of Guangxi Normal University:Natural Science Edition
基金
重庆市自然科学基金资助项目(CSTC2006BB2021)
关键词
文本分类
独立性假设
相关性
text classification
independence hypothesis
relativity