摘要
针对二值文本分类算法中的特征选择问题,本文提出了基于贝叶斯推理的评估函数算法来替代常用的、以IG或MI为评估函数的算法;同时,提出了以评估函数值的累计贡献率表示置信度,并以此确定特征选择维度的可量化的方法。对比实验显示,本文提出的新方法具有简便易行、高效实用的优点,此算法不仅对文本分类问题,对其它各类二值分类问题中的特征选择方法研究也都具有很好的参考、借鉴价值。
Feature Selection is important for the text classification. The paper issued a new algorithm based on Bayes Reasoning to process the Feature Selection on alternative text classification. The experiments showed it had much better effect than the widely-used Mutual Information (MI) algorithm. And the paper also submitted a quantitative algorithm to decide the dimension of Feature Selection.
出处
《计算机科学》
CSCD
北大核心
2008年第7期173-176,共4页
Computer Science
关键词
特征选择
数据挖掘
贝叶斯推理
文本分类
Feature selection,Data mining,Bayes reasoning,Text classification