摘要
由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统———WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择。实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确。
An effective feature selection is very important for an NB-based classifier which uses the conditional independence assumption. MI and TFIDF are two general feature selection methods in text categorization. Considering their each deficiency in representing documents or categories,they are combined into a two-stage selection method and applied to WEBCAT——a web page NB-based classifier using the multinomial model. Experiments show that this new method works more effectively than that only using MI or TFIDF in selecting those representative features and in categorizing.
出处
《中山大学学报(自然科学版)》
CAS
CSCD
北大核心
2004年第5期118-120,共3页
Acta Scientiarum Naturalium Universitatis Sunyatseni
基金
国家自然科学基金资助项目(60173039)
暨南大学自然科学基金资助项目