期刊文献+

改进的TF-IDF中文本特征词加权算法研究 被引量:10

下载PDF
导出
摘要 在自动文本分类中,TF-IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF-DFI-DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF-IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。
作者 申剑博
出处 《软件导刊》 2015年第4期67-69,共3页 Software Guide
  • 相关文献

参考文献4

二级参考文献25

  • 1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量:26
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:95
  • 3徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量:56
  • 4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量:120
  • 5Rocchio J.The SMART Retrieval System:Experiments in Automatic Document Processing[M].Englewood Cliffs,USA:Prentice-Hall,1971.
  • 6Salton G,Buckley C.Term Weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management,1988,24(5):513-523.
  • 7Salton G.Developments in Automatic Text Retrieval[J].Science,1991,253(5023):974-979.
  • 8Sebastiani F.Machine Learning in Automated Text Categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.
  • 9Shankar S,Karypis G.A Feature Weight Adjustment Algorithm for Document Categorization[C]//Proc.of KDD'00.New York,USA:ACM Press,2000.
  • 10Forman G.BNS Feature Scaling:An Improved Representation over TF-IDF for SVM Text Classification[C]//Proc.of the 12th ACM Conference on Information and Knowledge Management.Napa Valley,CA,USA:ACM Press,2008:26-30.

共引文献91

同被引文献89

引证文献10

二级引证文献65

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部