-
题名基于词频的优化互信息文本特征选择方法
被引量:13
- 1
-
-
作者
刘海峰
姚泽清
苏展
-
机构
解放军理工大学理学院
-
出处
《计算机工程》
CAS
CSCD
2014年第7期179-182,共4页
-
基金
国家自然科学基金资助项目(71071161
61273209)
江苏省自然科学基金资助项目(BK2012511)
-
文摘
互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分布上的差异以及类内不同文本之间分布上的差异等角度,通过引入特征项的类内频数因子、类内位置分布因子以及类间分布因子,提出一种改进的MI文本特征选择方法,使得特征项的频数信息在MI模型中得到有效利用,合理改善互信息模型在文本特征选择方面的不足。文本分类实验结果表明,改进MI文本特征选择方法的平均准确率、召回率分别提高约5.2%及4.6%,平均综合评价指标值提高约4.9%,有效提高了模型的文本分类效率。
-
关键词
文本分类
特征选择
互信息
特征频率
特征降维
类内分布
-
Keywords
text classification
feature selection
Mutual Information(MI)
feature frequency
feature dimension reduction
distributionwithin class
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-