摘要
文本分类技术是文本信息处理的核心技术之一,主要包括文本的向量模型表示、文本特征选择和分类器训练三大过程。本文提出了一种混合(EIBA+DHChi2)特征选择算法,并将所获取的特征作为软集合理论中的参数集进行文本分类,从而建立了一种新的基于软集合理论的文本分类技术。实验表明查准率与查全率比原有算法都有所提高,说明新的基于软集合理论的文本分类算法是有效的。
Text classification is one of the key techniques in text information process,which includes how to establish vector model,select feature and train classifier.EIBA and DHCHi2 are integrated to select the features of text and the features are used as parameters in a fuzzy soft set theory.Then a new technique of text classification is established based on a fuzzy soft set.Experiments show that the technique is effective,and the ratios of accuracy and recall are improved comparing with other methods.
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2011年第1期129-132,共4页
Journal of Guangxi Normal University:Natural Science Edition
基金
国家自然科学基金重大研究计划培育项目(90718020)
澳大利亚ARC项目(DP0667060)
关键词
文本分类
特征选择
Chi2假设检验
独立度
模糊软集合
text classification
feature select
Chi2 hapothesis testing
independent degree
fuzzy soft set