期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于统计极差和变异系数的特征抽取研究 被引量:3
1
作者 甄志龙 张居晓 《统计与决策》 CSSCI 北大核心 2022年第23期43-47,共5页
经典的文本频数DF从全局角度统计某个单词特征出现的文本数,而忽略了局部信息。文章针对传统DF文本特征抽取方法存在的不足,对DF方法进行了改进和优化,通过考虑单词特征的局部信息和全局信息,利用类别信息从局部统计单词在各个类上的分... 经典的文本频数DF从全局角度统计某个单词特征出现的文本数,而忽略了局部信息。文章针对传统DF文本特征抽取方法存在的不足,对DF方法进行了改进和优化,通过考虑单词特征的局部信息和全局信息,利用类别信息从局部统计单词在各个类上的分布,并结合分散性和变异性利用极差、变异系数和变形KL散度三种方式从全局角度度量单词重要性,提出了一种基于统计极差和变异系数的文本特征抽取方法。在英文文本数据集路透社Reuters-21578财经新闻和20Newsgroups新闻组以及中文文本数据集搜狗新闻语料库中进行了实验和测试,结果表明,该方法能够提升文本特征抽取的效果,与其他方法相比在多类别平衡文本数据集上更能显示其优越性。 展开更多
关键词 极差 变异系 文本频数 特征抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部