期刊文献+

一种改进的文本特征选择方法的研究与设计 被引量:1

Research & Design of an Improved Text-Feature-Selection Method
下载PDF
导出
摘要 特征选择是文本挖掘技术的一个重要的环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其它几种特征选择方法作比较,分析这种方法获取文本特征的精度。 Feature selection is an important tache of text mining technology.On the basis of Chinese text segmentation,it pretreated with text through design a simple applied program.Then,after analysis and compare some methods of feature selection which are used m text classifications,it provided a new feature selection method,which is based on Information Gain and Mutual Information to be integrated.Using this new method to draw out the metadata or lemmas,they are to be made an eigenvector of the whole article.Finally it analyzed the precision through some experimentation.
出处 《微型电脑应用》 2008年第5期21-23,4-5,共3页 Microcomputer Applications
基金 安徽省高校省级自然科学研究项目(2007ZD-7021010)
关键词 文本挖掘 信息增益 互信息 特征向量 text mining information gain mutual information eigenvector
  • 相关文献

参考文献8

二级参考文献14

  • 1黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 2Yang Y,http://citeseernjneccom/yang97comparativehtml,1997年
  • 3Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
  • 4Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
  • 5Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
  • 6Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Nave Bayees[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled:Morgan Kaufmann,1999:258-267.
  • 7梁久祯 兰东俊 扈旻.基于先验知识的网页特征压缩与线性分类器设计[A]..第十二届全国神经计算学术大会论文集[C].北京:人民邮电出版社,2002.494-501.
  • 8何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量:54
  • 9徐振航,刘莉芹.基于XML的WEB数据挖掘技术[J].计算机系统应用,2001,10(1):39-42. 被引量:26
  • 10王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量:17

共引文献446

同被引文献12

引证文献1

二级引证文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部