期刊文献+
共找到191篇文章
< 1 2 10 >
每页显示 20 50 100
基于信息增益的文本特征选择方法 被引量:31
1
作者 任永功 杨荣杰 +1 位作者 尹明飞 马名威 《计算机科学》 CSCD 北大核心 2012年第11期127-130,共4页
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权... 在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 展开更多
关键词 特征选择 文本分类 信息增益 冗余特征 不平衡数据集
下载PDF
一种基于信息增益及遗传算法的特征选择算法 被引量:18
2
作者 任江涛 孙婧昊 +1 位作者 黄焕宇 印鉴 《计算机科学》 CSCD 北大核心 2006年第10期193-195,251,共4页
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于... 特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。 展开更多
关键词 特征选择 信息增益 遗传算法
下载PDF
基于词频信息的改进信息增益文本特征选择算法 被引量:16
3
作者 石慧 贾代平 苗培 《计算机应用》 CSCD 北大核心 2014年第11期3279-3282,共4页
为克服传统信息增益(IG)算法对特征项的频数考虑不足的缺陷,在对传统算法和相关改进算法深入分析的基础上,提出一种基于词频信息的改进的IG文本特征选择算法。分别从特征项在类内出现的频数、类内位置分布、不同类间的分布等方面对传统I... 为克服传统信息增益(IG)算法对特征项的频数考虑不足的缺陷,在对传统算法和相关改进算法深入分析的基础上,提出一种基于词频信息的改进的IG文本特征选择算法。分别从特征项在类内出现的频数、类内位置分布、不同类间的分布等方面对传统IG算法的参数进行了修正,使特征频数信息得到充分利用。对文本分类的实验结果表明,所提算法的分类精度明显高于传统IG算法和加权的IG改进算法。 展开更多
关键词 文本分类 特征选择 信息增益 词频 参数修正
下载PDF
一种基于信息增益的特征优化选择方法 被引量:55
4
作者 刘庆和 梁正友 《计算机工程与应用》 CSCD 北大核心 2011年第12期130-132,136,共4页
特征选择是文本分类的一个重要环节,它可以有效提高分类精度和效率。在研究文本分类特征选择方法的基础上,分析了信息增益方法的不足,将频度、集中度、分散度应用到信息增益方法上,提出了一种基于信息增益的特征优化选择方法。实验表明... 特征选择是文本分类的一个重要环节,它可以有效提高分类精度和效率。在研究文本分类特征选择方法的基础上,分析了信息增益方法的不足,将频度、集中度、分散度应用到信息增益方法上,提出了一种基于信息增益的特征优化选择方法。实验表明,该方法在分类效果与性能上都优于传统方法。 展开更多
关键词 特征选择 信息增益 频度 集中度 分散度
下载PDF
基于信息增益特征关联树的文本特征选择算法 被引量:9
5
作者 任永功 杨雪 +1 位作者 杨荣杰 胡志冬 《计算机科学》 CSCD 北大核心 2013年第10期252-256,共5页
传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度... 传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度改善特征项在类内分布不均对特征选择的干扰,并采用特征关联树模型对类内特征进行处理,保留强相关特征,删除弱相关和不相关特征,降低特征冗余度。最后,使用类间加权离散度的信息增益公式进一步计算,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 展开更多
关键词 特征选择 特征关联树 信息增益 不平衡数据集 离散度
下载PDF
基于信息增益的多标签特征选择算法 被引量:9
6
作者 李玲 刘华文 +1 位作者 徐晓丹 赵建民 《计算机科学》 CSCD 北大核心 2015年第7期52-56,共5页
多标签特征选择是一种提高多标签分类器性能的技术。针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,提出一种基于信息增益的多标签分类算法。该算法假设特征之间相互独立,首先使用单个特征与整... 多标签特征选择是一种提高多标签分类器性能的技术。针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,提出一种基于信息增益的多标签分类算法。该算法假设特征之间相互独立,首先使用单个特征与整个标签集合之间的信息增益来度量这两者的关联程度,再根据阈值删除不相关的特征以得到最优特征子集合。实验表明,该算法能有效地提高多标签分类器的分类性能。 展开更多
关键词 数据挖掘 多标签分类 特征选择 信息增益
下载PDF
一种基于信息增益与费用评价函数的特征选择准则 被引量:6
7
作者 王亚东 郭茂祖 钱国良 《计算机研究与发展》 EI CSCD 北大核心 1999年第7期788-793,共6页
特征选择问题是机器学习和模式识别中的一个重要问题.然而,在实际应用中,由于没有将特征选择与特征提取过程统一考虑,只注重特征本身的分类性能,没有考虑特征提取的费用问题,导致识别系统的效率较低.文中从实际应用角度,提出一... 特征选择问题是机器学习和模式识别中的一个重要问题.然而,在实际应用中,由于没有将特征选择与特征提取过程统一考虑,只注重特征本身的分类性能,没有考虑特征提取的费用问题,导致识别系统的效率较低.文中从实际应用角度,提出一种新的特征选择准则,将特征的分类性能与特征的提取费用统一考虑,利用信息增益与特征提取费用综合评价函数作为特征选择准则,并给出了启发式算法ECFS.将该算法应用于实际领域的学习问题并与决策树算法ID3和BP神经网络进行了比较.实验结果表明,ECFS在保证识别精度的同时,大大减少了特征提取的时间消耗,提高了识别速度. 展开更多
关键词 信息增益 费用 特征选择 机器学习 模式识别
下载PDF
文本分类中信息增益特征选择算法的改进 被引量:14
8
作者 郭颂 马飞 《计算机应用与软件》 CSCD 北大核心 2013年第8期139-142,共4页
特征选择算法对文本分类系统的精确度有很大影响,传统的信息增益特征选择算法通常会导致在指定类别中很少出现而在其他类别中频繁出现的特征被选择出来。为克服这一缺陷,在对传统算法和相关改进算法深入分析的基础上,引入特征分布差异... 特征选择算法对文本分类系统的精确度有很大影响,传统的信息增益特征选择算法通常会导致在指定类别中很少出现而在其他类别中频繁出现的特征被选择出来。为克服这一缺陷,在对传统算法和相关改进算法深入分析的基础上,引入特征分布差异因子、类内和类间加权因子的改进思路,提出一种基于特征分布加权的信息增益改进算法,并分别采用朴素贝叶斯和支持向量机两种分类算法进行实验。实验结果表明,该算法优于其他改进算法。 展开更多
关键词 文本分类 特征选择 信息增益 特征分布加权
下载PDF
文本分类中信息增益特征选择方法的研究 被引量:28
9
作者 郭亚维 刘晓霞 《计算机工程与应用》 CSCD 2012年第27期119-122,127,共5页
分析了传统信息增益(IG)特征选择方法忽略了特征项在类间、类内分布信息的缺点,引入类内分散度、类间集中度等因素,区分与类强相关的特征;针对传统信息增益(IG)特征选择方法没有很好组合正相关特征和负相关特征的问题,引入比例因子来平... 分析了传统信息增益(IG)特征选择方法忽略了特征项在类间、类内分布信息的缺点,引入类内分散度、类间集中度等因素,区分与类强相关的特征;针对传统信息增益(IG)特征选择方法没有很好组合正相关特征和负相关特征的问题,引入比例因子来平衡特征出现和不出现时的信息量,降低在不平衡语料集上负相关特征的比例,提高分类效果。通过实验证明了改进的信息增益特征选择方法的有效性和可行性。 展开更多
关键词 文本分类 信息增益 特征选择 类内分散度 类间集中度 比例因子
下载PDF
基于词频分布信息的优化IG特征选择方法 被引量:9
10
作者 刘海峰 刘守生 宋阿羚 《计算机工程与应用》 CSCD 北大核心 2017年第4期113-117,122,共6页
文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词... 文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。 展开更多
关键词 信息增益 特征选择 类内分布 类间分布 文本分类
下载PDF
基于改进的ID3信息增益的特征选择方法 被引量:8
11
作者 朱颢东 钟勇 《计算机工程》 CAS CSCD 北大核心 2010年第8期37-39,共3页
针对ID3中信息增益的缺点,通过引进属性依赖度进行改进,提出一种综合的特征选择方法,使用优化的文档频方法进行特征初选以降低文本向量的稀疏性,利用改进的信息增益方法进一步选择特征,以获得具有代表性的特征子集。实验结果表明该方法... 针对ID3中信息增益的缺点,通过引进属性依赖度进行改进,提出一种综合的特征选择方法,使用优化的文档频方法进行特征初选以降低文本向量的稀疏性,利用改进的信息增益方法进一步选择特征,以获得具有代表性的特征子集。实验结果表明该方法的性能优于信息增益、x2统计量及互信息方法。 展开更多
关键词 特征选择 文档频 ID3算法 信息增益 属性依赖度
下载PDF
一种基于特征点检测和信息增益的视觉显著性提取方法 被引量:3
12
作者 李鹏 王延江 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第4期171-177,共7页
提出一种新的基于两阶段框架的显著性提取方法.在第一阶段,使用颜色增强的Harris特征点检测算法和邻域扩展规则得到图像的粗略显著性区域;在第二阶段,首先经由独立成份分析从预先决定的显著性区域提取出稀疏特征,然后根据提出的信息增... 提出一种新的基于两阶段框架的显著性提取方法.在第一阶段,使用颜色增强的Harris特征点检测算法和邻域扩展规则得到图像的粗略显著性区域;在第二阶段,首先经由独立成份分析从预先决定的显著性区域提取出稀疏特征,然后根据提出的信息增益方法确定显著性,图像某点的信息增益定义为以该点为中心的圆形邻域局部熵和环域局部熵的差.最后经过与两种代表性的流行检测算法在人眼跟踪数据库上进行实验对比,验证了所提出方法的有效性以及能够在性能和计算复杂度之间折衷的灵活性. 展开更多
关键词 特征 信息增益 显著图
下载PDF
改进的信息增益特征选择方法在文本聚类中的应用 被引量:2
13
作者 陈涛 宋妍 谢阳群 《现代图书情报技术》 CSSCI 北大核心 2004年第12期7-9,共3页
利用改进的信息增益特征选择的方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,利用向量空间模型和信息增益特征降维方法 ,构造文本特征向量 ,并最终利用 C-均值方法聚类 ,聚类结果精度、召回率、F- measure分别达到... 利用改进的信息增益特征选择的方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,利用向量空间模型和信息增益特征降维方法 ,构造文本特征向量 ,并最终利用 C-均值方法聚类 ,聚类结果精度、召回率、F- measure分别达到 0 .82、0 .88、0 . 展开更多
关键词 信息增益 特征选择 聚类
下载PDF
信息增益混合邻域粗糙集的肺部肿瘤高维特征选择算法 被引量:3
14
作者 陆惠玲 周涛 +1 位作者 张飞飞 霍兵强 《数据采集与处理》 CSCD 北大核心 2020年第3期536-548,共13页
针对冗余属性和不相关属性过多对肺部肿瘤诊断的影响以及Pawlak粗糙集只适合处理离散变量而导致原始信息大量丢失的问题,提出混合信息增益和邻域粗糙集的肺部肿瘤高维特征选择算法(Information gain-neighborhood rough set-support vec... 针对冗余属性和不相关属性过多对肺部肿瘤诊断的影响以及Pawlak粗糙集只适合处理离散变量而导致原始信息大量丢失的问题,提出混合信息增益和邻域粗糙集的肺部肿瘤高维特征选择算法(Information gain-neighborhood rough set-support vector machine,IG-NRS-SVM)。该算法首先提取3000例肺部肿瘤CT图像的104维特征构造决策信息表,借助信息增益结果选出高相关的特征子集,再通过邻域粗糙集剔除高冗余的属性,通过两次属性约简得到最优的特征子集,最后采用网格寻优算法优化的支持向量机构建分类识别模型进行肺部肿瘤良恶性的鉴别。从约简和分类识别两个角度验证方法的可行性与有效性,并与不约简算法、Pawlak粗糙集、信息增益和邻域粗糙集约简算法进行对比。结果表明混合算法精确度优于其他对比算法,精确度达到96.17%,并且有效降低了时间复杂度,对肺部肿瘤计算机辅助诊断具有一定的参考价值。 展开更多
关键词 信息增益 邻域粗糙集 支持向量机 肺部肿瘤 特征选择
下载PDF
基于信息增益与皮尔森相关系数的2D自适应特征选择算法 被引量:15
15
作者 谢娟英 吴肇中 郑清泉 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期69-81,共13页
针对基因表达数据的高维小样本特点,提出基于信息增益与皮尔森相关系数的2D自适应特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)。以特征的信息增益度量相应特征所携带的信息量... 针对基因表达数据的高维小样本特点,提出基于信息增益与皮尔森相关系数的2D自适应特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)。以特征的信息增益度量相应特征所携带的信息量,定义特征辨识度来度量特征的辨识能力大小,采用皮尔森相关系数定义特征独立性。为了尽可能选择到辨识能力和独立性都很好的特征,并能调和特征的辨识度与独立性对分类的贡献,定义两者之积为特征重要性,自适应地选择重要性远高于其余特征重要性的特征构成特征子集。以核极限学习机K-ELM(kernel extreme learning machine)为分类器,评价所选择特征子集的分类性能。基因数据集的实验测试以及与经典特征选择算法SVM-RFE、DRJMIM、mRMR、LLE Score、AMID、AVC的实验对比和统计重要性检测表明,提出的FSIP特征选择算法能够选择出分类能力很好的特征子集,基于被选特征子集的K-ELM具有很好的分类性能。 展开更多
关键词 信息增益 皮尔森相关系数 特征选择 极限学习机 特征相关性
下载PDF
基于信息增益的混合垃圾邮件特征选择方法 被引量:1
16
作者 闫巧 冷成朝 《计算机工程与应用》 CSCD 2012年第27期90-93,共4页
特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销。比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗... 特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销。比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗余的缺点,提出了利用特征词间条件概率和分类区分度消除冗余的混合邮件特征选择方法。实验结果表明:方法效果良好,提高了邮件分类准确率。 展开更多
关键词 特征选择 卡方检验(CHI) 信息增益(ig) 支持向量机(SVM)
下载PDF
一种基于信息增益的特征选择方法 被引量:11
17
作者 黄志艳 《山东农业大学学报(自然科学版)》 CSCD 北大核心 2013年第2期252-256,共5页
本文提出了一种基于信息增益改进的信息增益特征选择选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类... 本文提出了一种基于信息增益改进的信息增益特征选择选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力。 展开更多
关键词 特征选择 文本分类 信息增益
下载PDF
基于信息增益和萤火虫算法的文本特征选择 被引量:6
18
作者 文武 赵成 +2 位作者 赵学华 刘颖 范荣妹 《计算机工程与设计》 北大核心 2019年第12期3457-3462,共6页
针对传统的文本特征选择方法所选特征子集精度不高的问题,提出一种结合信息增益和萤火虫算法的特征选择方法。计算所有特征词的信息增益并按从高到低排序,在排序靠前的特征集合上利用萤火虫算法寻优搜索得到最优特征子集。为避免萤火虫... 针对传统的文本特征选择方法所选特征子集精度不高的问题,提出一种结合信息增益和萤火虫算法的特征选择方法。计算所有特征词的信息增益并按从高到低排序,在排序靠前的特征集合上利用萤火虫算法寻优搜索得到最优特征子集。为避免萤火虫算法求解速度慢和陷入局部最优,对步长因子α进行改进,使其动态更新。在KNN上的文本分类实验结果表明,萤火虫算法选择的特征子集与信息增益和遗传算法相比,具有更好的分类效果。 展开更多
关键词 信息增益 萤火虫算法 特征选择 步长因子 文本分类
下载PDF
基于粗糙集与信息增益的情感特征选择方法 被引量:5
19
作者 蒲国林 《微电子学与计算机》 CSCD 北大核心 2016年第1期96-99,共4页
为了提高情感特征提取的准确率,为高性能情感分析打下坚实的基础,提出了一种融合粗糙集与信息增益的情感特征选择方法.该方法借助信息增益判据选出高相关性的特征子集,再通过粗糙集剔除高冗余性的特征,从而得到最优的特征子集.在多个数... 为了提高情感特征提取的准确率,为高性能情感分析打下坚实的基础,提出了一种融合粗糙集与信息增益的情感特征选择方法.该方法借助信息增益判据选出高相关性的特征子集,再通过粗糙集剔除高冗余性的特征,从而得到最优的特征子集.在多个数据集上的测试表明,该方法可将若干经典方法的准确率提高4~9个百分点,是一种优秀的特征选择方法,对提升情感分析的整体性能有明显意义. 展开更多
关键词 情感分析 特征选择 粗糙集 信息增益
下载PDF
基于信息增益和相关性的判定树特征选择算法 被引量:1
20
作者 叶菲 罗景青 《现代防御技术》 北大核心 2009年第1期87-89,123,共4页
特征选择是模式识别中需要解决的一个重要问题。针对已知类标号的样本集合,从特征的分类信息和特征间相关性2个方面出发,提出了一种基于信息增益和相关性的判定树特征选择算法。该算法是一种有监督方法,先采用信息增益度量特征的分类区... 特征选择是模式识别中需要解决的一个重要问题。针对已知类标号的样本集合,从特征的分类信息和特征间相关性2个方面出发,提出了一种基于信息增益和相关性的判定树特征选择算法。该算法是一种有监督方法,先采用信息增益度量特征的分类区分度,采用相关系数度量特征的冗余度,然后建立判定树,则树中的节点即为选择出的特征。 展开更多
关键词 特征选择 信息增益 相关性 判定树
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部