期刊文献+

基于词频差异的特征选取及改进的TF-IDF公式 被引量:55

Improved feature selection method and TF-IDF formula based on word frequency differentia
下载PDF
导出
摘要 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 The vectofization of documents affects the speed and accuracy of text categorization greatly. The most common used formulas: TF-IDF, MI, and IG were analyzed. The method of feature selection based on word frequency differentia was proposed and TF-IDF formula was modified to improve the quality of feature selection, the speed and accuracy of categorization.
出处 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页 journal of Computer Applications
关键词 特征选取 向量空间模型 文本分类 TF-IDF 信息增益 互信息量 feature selection VSM text categorization TF-IDF IG MI
  • 相关文献

参考文献6

二级参考文献10

共引文献181

同被引文献447

引证文献55

二级引证文献224

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部