期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于词频的优化互信息文本特征选择方法 被引量:13
1
作者 刘海峰 姚泽清 苏展 《计算机工程》 CAS CSCD 2014年第7期179-182,共4页
互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分... 互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分布上的差异以及类内不同文本之间分布上的差异等角度,通过引入特征项的类内频数因子、类内位置分布因子以及类间分布因子,提出一种改进的MI文本特征选择方法,使得特征项的频数信息在MI模型中得到有效利用,合理改善互信息模型在文本特征选择方面的不足。文本分类实验结果表明,改进MI文本特征选择方法的平均准确率、召回率分别提高约5.2%及4.6%,平均综合评价指标值提高约4.9%,有效提高了模型的文本分类效率。 展开更多
关键词 文本分类 特征选择 互信息 特征频率 特征降维 类内分布
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部