期刊文献+

几种典型特征选取方法在中文网页分类上的效果比较 被引量:76

A Comparative Study on Several Typical Feature Selection Methods for Chinese Web Page Categorization
下载PDF
导出
摘要 针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。 This paper reports a comparative study with CHI ,IG,DF and MI feature selection methods for Chinese Web pages.The main experimental results are:(1)CHI ,IG and DF significantly outperforms MI ;(2)CHI ,IG and DF perform similarly and all can filter out more than85%features;(3)DF is the simplest method with the lowest cost in computa-tion and can be used instead of CHI or IG;(4)The experimental results are similar using plain English text and Chi-nese Web pages to evaluate feature selection methods.
出处 《计算机工程与应用》 CSCD 北大核心 2003年第22期146-148,共3页 Computer Engineering and Applications
基金 国家973重大基础研究项目(编号:G1999032706)资助
关键词 机器学习 中文网页分类 特征选取 评测 Machine Learning,Chinese Web Page Categorization,Feature Selection,Evaluation
  • 相关文献

参考文献5

  • 1黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量:24
  • 2冯是聪 单松巍 张志刚 等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
  • 3Yiming Yang,Jan O Pedersen.A comparative Study on Feature Selection in Text Categorization[C].In :Proceedings of the Fourteenth International Conference on Machine Leaming(ICML'97), 1997.
  • 4Yiming Yang,Xin Liu.A re-examination of text categorization methods[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval SIGIR'99,1999:42---49.
  • 5Yiming Yang.A study on thresholding strategies for text categorization[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'01),2001.

二级参考文献5

共引文献23

同被引文献581

引证文献76

二级引证文献655

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部