摘要
特征选择是文本挖掘技术的一个重要的环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其它几种特征选择方法作比较,分析这种方法获取文本特征的精度。
Feature selection is an important tache of text mining technology.On the basis of Chinese text segmentation,it pretreated with text through design a simple applied program.Then,after analysis and compare some methods of feature selection which are used m text classifications,it provided a new feature selection method,which is based on Information Gain and Mutual Information to be integrated.Using this new method to draw out the metadata or lemmas,they are to be made an eigenvector of the whole article.Finally it analyzed the precision through some experimentation.
出处
《微型电脑应用》
2008年第5期21-23,4-5,共3页
Microcomputer Applications
基金
安徽省高校省级自然科学研究项目(2007ZD-7021010)
关键词
文本挖掘
信息增益
互信息
特征向量
text mining
information gain
mutual information
eigenvector