摘要
朴素贝叶斯分类器是一种简单、高效的分类算法,它以贝叶斯定理和最大后验假设为理论基础,然而朴素贝叶斯分类器属性之间相互独立的假设,影响了朴素贝叶斯分类器的性能.提出先使用基于相关的属性选择算法进行属性选择,然后在选择的属性集上,用朴素贝叶斯分类器对数据集进行分类.实验证明,与未使用属性选择的实验结果相比,使用基于相关的属性选择算法进行属性选择后,朴素贝叶斯分类器平均分类正确率提高,分类效率显著提升.
Naive Bayes classifier is a simple and effective classification method. Its theory foundation is Bayesian and maximum posteriori assumptions. But independence assumption of properties affects the performance of the Naive Bayes classifier. This paper presents a way to improve the performance of the Naive Bayes classifier. It selects attribute set from all attributes of the data sets by correlation-base feature selecting algornthin and classifies the data sets by Naive Bayes classifier. Experimental results show that the average correct classification rate increases and the efficiency of classification significantly improves compared with the unused attribute selection.
出处
《河南科学》
2014年第1期42-46,共5页
Henan Science
基金
陕西省科学技术研究计划项目(2013JM8037)
陕西省教育厅科学研究项目(12JK0933)
咸阳师范学院专项科研项目(13XSYK056)
关键词
朴素贝叶斯
属性相关
信息熵
信息增益
naive Bayes
attribute correlation
information entropy
information gain