摘要
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
This paper reports a comparative study with CHI ,IG,DF and MI feature selection methods for Chinese Web pages.The main experimental results are:(1)CHI ,IG and DF significantly outperforms MI ;(2)CHI ,IG and DF perform similarly and all can filter out more than85%features;(3)DF is the simplest method with the lowest cost in computa-tion and can be used instead of CHI or IG;(4)The experimental results are similar using plain English text and Chi-nese Web pages to evaluate feature selection methods.
出处
《计算机工程与应用》
CSCD
北大核心
2003年第22期146-148,共3页
Computer Engineering and Applications
基金
国家973重大基础研究项目(编号:G1999032706)资助
关键词
机器学习
中文网页分类
特征选取
评测
Machine Learning,Chinese Web Page Categorization,Feature Selection,Evaluation