期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向文本分类的基于最小冗余原则的特征选取 被引量:3
1
作者 张希娟 王会珍 朱靖波 《中文信息学报》 CSCD 北大核心 2007年第5期56-60,共5页
在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal RedundancyPrinciple,MRP)的特征选取方法。... 在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal RedundancyPrinciple,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。 展开更多
关键词 计算机应用 中文信息处理 条件独立性假设 最小冗余原则 特征选取 文本分类
下载PDF
最大相关最小冗余两阶段文本特征选择方法
2
作者 冷婷 叶仁玉 徐思蓉 《安徽理工大学学报(自然科学版)》 CAS 2024年第3期83-89,共7页
目的为解决传统卡方统计法(CHI)仅考虑文本特征与文本类别的相关性进行特征选择,未考虑特征之间的冗余性,导致文本分类的性能不佳的问题。方法使用最大相关最小冗余原则,对CHI法初次选择的特征子集,利用强相关低冗余思想有目的地筛选低... 目的为解决传统卡方统计法(CHI)仅考虑文本特征与文本类别的相关性进行特征选择,未考虑特征之间的冗余性,导致文本分类的性能不佳的问题。方法使用最大相关最小冗余原则,对CHI法初次选择的特征子集,利用强相关低冗余思想有目的地筛选低冗余特征,提升文本特征选择效果,提出一种基于最大相关最小冗余的两阶段文本特征选择方法(CHI_impMI)。结果对复旦大学新闻文本语料进行分类,相比于CHI和CHI_MI特征选择方法,CHI_impMI方法的性能指标均为最优,文本分类效果最好。结论CHI_impMI方法在相关度与冗余度之间达到了很好的平衡,从而有效提升文本分类性能。 展开更多
关键词 卡方统计方法 最大相关最小冗余原则 互信息 文本分类 特征选择
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部