期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
改进的文本特征选取算法研究
被引量:
2
1
作者
朱世玲
郑彦
《计算机技术与发展》
2019年第5期66-69,共4页
特征选取的好坏决定了文本分类的准确度。文本特征选取通常有文档频率、互信息、信息增益、卡方统计量等方法。文中讨论了文档频率和互信息在特征选取时的缺点,基于这些缺点,提出了一种混合文档频率和互信息的改进算法。文档频率进行特...
特征选取的好坏决定了文本分类的准确度。文本特征选取通常有文档频率、互信息、信息增益、卡方统计量等方法。文中讨论了文档频率和互信息在特征选取时的缺点,基于这些缺点,提出了一种混合文档频率和互信息的改进算法。文档频率进行特征选取时会偏向选择高频词,而没有考虑到该词是否在类别间有区分度,所以提出通过计算词的文档频率的类别方差作为文档频率的权重来进行特征选取。互信息偏向选择低频词,也忽略了互信息值为负的那些特征作用,有些互信息为负的词反而包含更多的类别信息。所以对互信息的值取了绝对值来加强互信息为负的词的作用。通过对比DF、MI和改进的DFMI的实验结果,发现该算法在精度、召回率和F_1度量上都有所提高,验证了该方法的有效性。
展开更多
关键词
特征选取
互信息
文档
频率
文本分类
改进
互信息
改进文档频率
下载PDF
职称材料
题名
改进的文本特征选取算法研究
被引量:
2
1
作者
朱世玲
郑彦
机构
南京邮电大学计算机软件学院
出处
《计算机技术与发展》
2019年第5期66-69,共4页
基金
国家"863"高技术发展计划项目(2006AA01Z201)
文摘
特征选取的好坏决定了文本分类的准确度。文本特征选取通常有文档频率、互信息、信息增益、卡方统计量等方法。文中讨论了文档频率和互信息在特征选取时的缺点,基于这些缺点,提出了一种混合文档频率和互信息的改进算法。文档频率进行特征选取时会偏向选择高频词,而没有考虑到该词是否在类别间有区分度,所以提出通过计算词的文档频率的类别方差作为文档频率的权重来进行特征选取。互信息偏向选择低频词,也忽略了互信息值为负的那些特征作用,有些互信息为负的词反而包含更多的类别信息。所以对互信息的值取了绝对值来加强互信息为负的词的作用。通过对比DF、MI和改进的DFMI的实验结果,发现该算法在精度、召回率和F_1度量上都有所提高,验证了该方法的有效性。
关键词
特征选取
互信息
文档
频率
文本分类
改进
互信息
改进文档频率
Keywords
feature selection
mutual information
document frequency
text classification
mutual information improved
document frequency improved
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
改进的文本特征选取算法研究
朱世玲
郑彦
《计算机技术与发展》
2019
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部