期刊文献+

基于类别相关性和优化的ID3特征选择 被引量:3

Feature Selection Based on Category Correlation and Improved ID3
下载PDF
导出
摘要 简单分析了词频方法和文档频方法,在总结其不足的基础上,提出了一个类别相关性方法,随后分析了ID 3中信息增益的缺点并引进属性依赖度来加以改进,并进一步根据其中信息增益的计算特点,利用凸函数的性质来进行简化,减少了信息增益的计算量,提高了信息增益的计算效率;最后将此优化的ID 3同类别相关性方法结合起来,提出了一个综合的特征选择方法。该综合方法首先使用类别相关性方法进行特征初选以降低文本向量的稀疏性,然后再使用优化的ID 3来进一步选择特征,从而获得较具代表性的特征子集。实验结果表明该方法性能良好。 Word frequency and document frequency are analyzed,and their deficiencies are summarized.The category correlation method is presented.Subsequently,it analyzes the shortcomings of information gain in ID3 and introduces attribute dependence to improve information gain.According to the characteristic of information gain,it simplifies information gain to reduce computing complexity by convex function.Finally,it combines the improved ID3 with the category correlation method and proposes a comprehensive feature selection method.The comprehensive method uses the category correlation method to select features to reduce the sparsity of feature spaces,and employs the improved ID3 to select features again,so it acquires the more representative feature subsets.The experimental results show that the combined method is promising.
出处 《数据采集与处理》 CSCD 北大核心 2011年第2期230-234,共5页 Journal of Data Acquisition and Processing
基金 河南省基础与前沿技术研究计划(102300410266)资助项目
关键词 文本分类 信息增益 属性依赖度 text categorization information gain attribute dependence
  • 相关文献

参考文献10

二级参考文献42

  • 1LIANG Ji-ye, QU Kai-she Department of Computer Science, Shanxi University, Taiyuan 030006, China.Information Measures of Roughness of Knowledge and Rough Sets for Incomplete Information Systems[J].Journal of Systems Science and Systems Engineering,2001,13(4):418-424. 被引量:9
  • 2寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量:25
  • 3乔梅,韩文秀.基于Rough集的决策树算法[J].天津大学学报(自然科学与工程技术版),2005,38(9):842-846. 被引量:9
  • 4[1]Quinlan JR. C4.5: Programs for Machine Learning [M]. San Mateo, CA: Morgan Kaufmann, 1993.
  • 5[2]Liu B, Hsu W, Ma Y. Intergrating Classification and Association Rule Mining [A]. Proc KDD[C], 1998.
  • 6[3]Buntine WL, Weigend AS. Computing Second Derivatives in Feed-forward Networks: A Review [J]. IEEE Transactions on Neural Networks, 1991,5(3):480-488.
  • 7[4]Cristianini N, Shawe-Taylor J. An Introduction to Support Vector Machines [M]. Cambridge Press, 2000. 1-18.
  • 8[5]Pawlak ZW. Rough Sets [J]. International Journal of Information and Computer Science, 1982,11(5):341-356.
  • 9[6]Pawlak ZW. Rough Sets and Intelligent Data Analysis [J]. Information Sciences, 2002,147(1-4):1-12.
  • 10[7]张文修,吴伟志,梁吉业. 粗糙集理论及方法 [M]. 北京:科学出版社,2003. 1-25.

共引文献257

同被引文献36

  • 1张振亚,陈恩红,王进,王煦法.RealCC在文本信息检索的个性化推荐中的应用研究[J].数据采集与处理,2004,19(3):338-342. 被引量:3
  • 2赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量:21
  • 3盛骤,谢式千,潘乘毅.概率论与数理统计[M].北京:高等教育出版社,2010.
  • 4MitchellTM著 曾华军 张银奎译.机器学习[M].北京:机械工业出版社,2003..
  • 5Tan P N, Steinbach M, Vipin K. Introduction to data mining[M].北京:机械工业出版社,2011.
  • 6Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986, 1(1): 81-106.
  • 7Quinlan J R. Simplifying decision trees[J]. Internet Journal of Man-Machine Studies, 1987, 27(3): 221-234.
  • 8HanJ,KamberM.数据挖掘:概念与技术[M].范明,盂小峰,译.2版.北京:机械工业出版社,2006.
  • 9王永梅,胡学钢.基于用户兴趣度和MID3决策树改进方法[J].计算机丁程与应用,2011,47(27):155-157.
  • 10Sebastiani F. Machine learning in automated text cat- egorization[J]. ACM Computing Surveys, 2002, 34 (1) : 1-9.

引证文献3

二级引证文献55

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部