期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
卡方统计中基于KL散度的高维文本数据特征筛选 被引量:4
1
作者 甄志龙 张居晓 《统计与决策》 CSSCI 北大核心 2022年第17期43-46,共4页
特征的高维性和数据的稀疏性问题会严重影响分类的准确性,卡方统计可以在保持分类精度不变的情况下,有效地对高维文本数据特征进行筛选。文章通过KL散度检验观测值与理论值的偏差程度,用KL散度度量特征与类别之间的相关性,改进了现有的... 特征的高维性和数据的稀疏性问题会严重影响分类的准确性,卡方统计可以在保持分类精度不变的情况下,有效地对高维文本数据特征进行筛选。文章通过KL散度检验观测值与理论值的偏差程度,用KL散度度量特征与类别之间的相关性,改进了现有的最大或平均全局评价方法。采用KNN分类模型在标准数据集上进行实验的结果表明,所提方法在大幅度降低文本数据特征向量空间维数的同时,还能推动分类性能的提高。 展开更多
关键词 卡方统计 KL散度 高维文本数据 特征筛选
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部