期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
改进的文本特征选取算法研究 被引量:2
1
作者 朱世玲 郑彦 《计算机技术与发展》 2019年第5期66-69,共4页
特征选取的好坏决定了文本分类的准确度。文本特征选取通常有文档频率、互信息、信息增益、卡方统计量等方法。文中讨论了文档频率和互信息在特征选取时的缺点,基于这些缺点,提出了一种混合文档频率和互信息的改进算法。文档频率进行特... 特征选取的好坏决定了文本分类的准确度。文本特征选取通常有文档频率、互信息、信息增益、卡方统计量等方法。文中讨论了文档频率和互信息在特征选取时的缺点,基于这些缺点,提出了一种混合文档频率和互信息的改进算法。文档频率进行特征选取时会偏向选择高频词,而没有考虑到该词是否在类别间有区分度,所以提出通过计算词的文档频率的类别方差作为文档频率的权重来进行特征选取。互信息偏向选择低频词,也忽略了互信息值为负的那些特征作用,有些互信息为负的词反而包含更多的类别信息。所以对互信息的值取了绝对值来加强互信息为负的词的作用。通过对比DF、MI和改进的DFMI的实验结果,发现该算法在精度、召回率和F_1度量上都有所提高,验证了该方法的有效性。 展开更多
关键词 特征选取 互信息 文档频率 文本分类 改进互信息 改进文档频率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部