期刊文献+

中文文本分类中特征选择方法的研究 被引量:2

A Study on Feature Selection in Chinese Text Categorization
下载PDF
导出
摘要 本文研究了文档频率DF、信息增益IG、互信息MI、x2分布(CHI)、期望交叉熵、优势率、文本证据权七种不同的特征选取方法。针对DF对高频词过于依赖,以及MI,IG和CHI对低频词过于依赖这一特点,试验了将它们组合起来形成DF—MI,DF-IG两种组合式特征选择方法,同时针对DF的特点提出了新的特征选取方法DFR,用KNN分类器试验了几种组合方法和DFIK方法,实验结果表明DFIK较DF—MI、DF—IG对分类效果有明显的提高,而组合特征选取方法较单个特征选取方法对分类器的分类效果有了很大的提高。 This paper is a study of feature selection methods in text categorization. Seven methods ere evaluated, including document frequency (DF), information gain (IG), mutual information (MI), x2-test(CH I), Expected Cross Entropy(CE), Weight of Evidence for Text and Odds Ratio. DF relies on the high frequency word and MI, IG and CHI rely on the low frequency word. So feature selection method of a combined type is used and suppress effectively the lack of the high or low frequency word. Meanwhile we introduce a new feature selection method DFR. A furthermore experiment proved that the combined feature selection method is effective.
作者 宁慧 吕志龙 NING Hui,LV Zhi-long (Computer Science and Technology College Harbin Engineering University,Harbin 15001,China)
出处 《电脑知识与技术》 2007年第11期774-776,790,共4页 Computer Knowledge and Technology
基金 国家自然科学基金资助项目(60603092).
关键词 文本分类 特征选取 KNN 特征组合 text categorization feature selection KNN feature combination
  • 相关文献

同被引文献10

引证文献2

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部