期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于改进CHI和带权ECE结合的特征选择方法 被引量:4
1
作者 蔡镇 高健 秦晓军 《计算机应用研究》 CSCD 北大核心 2019年第10期2962-2964,共3页
针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补... 针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征选择方法。经对比实验验证,pCHIωECE方法的查准率、F1值均优于CHI、ECE及pCHI、ωECE方法,且该方法的降维稳定性更好。 展开更多
关键词 卡方统计 期望交叉 特征选择 文本分类
下载PDF
基于网络DEA交叉效率的环境效率评价研究 被引量:3
2
作者 向小东 范秀丽 《福州大学学报(哲学社会科学版)》 2015年第3期51-56,63,共7页
从环境污染产生和治理过程出发,将环境效率评价过程分为两个子阶段——生产阶段(生产子系统)和污染治理阶段(污染治理子系统)进行综合分析,引入网络DEA与交叉效率思想进行效率评估,利用中立性交叉效率模型解决输入输出权重系数不唯一的... 从环境污染产生和治理过程出发,将环境效率评价过程分为两个子阶段——生产阶段(生产子系统)和污染治理阶段(污染治理子系统)进行综合分析,引入网络DEA与交叉效率思想进行效率评估,利用中立性交叉效率模型解决输入输出权重系数不唯一的问题,从而求得交叉效率矩阵,再利用熵值法确定决策单元的权系数,最后利用加权求和法得出所有单元的效率值。将以上思路应用于福建省9个地级市,其环境效率评价,发现无论是整个系统,还是生产子系统和污染治理子系统,其环境效率大多数偏低,具有较大提升空间,且环境效率水平差异较为明显,区域间环境效率存在严重不平衡。 展开更多
关键词 期望产出 网络DEA 交叉效率 值法 环境效率评价
下载PDF
基于改进隐马尔可夫模型的文本分类研究 被引量:3
3
作者 李开荣 孔照昆 +1 位作者 陈桂香 朱俊武 《微电子学与计算机》 CSCD 北大核心 2012年第11期161-165,共5页
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中... 将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量. 展开更多
关键词 隐马尔可夫模型 文本分类 期望交叉(ece) χ2统计 TF-IDF方法
下载PDF
文本分类中特征选择方法的比较与改进 被引量:25
4
作者 单丽莉 刘秉权 孙承杰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第S1期319-324,共6页
为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数... 为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能. 展开更多
关键词 文本分类 特征选择 期望交叉
下载PDF
文本分类中一种基于选择的二次特征降维方法 被引量:8
5
作者 刘海峰 王元元 +1 位作者 姚泽清 陈琦 《情报学报》 CSSCI 北大核心 2009年第1期23-27,共5页
特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类... 特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。 展开更多
关键词 文本分类 特征选择 互信息 期望交叉
下载PDF
基于特征选择的实体关系抽取 被引量:9
6
作者 毛小丽 何中市 +1 位作者 邢欣来 刘莉 《计算机应用研究》 CSCD 北大核心 2012年第2期530-532,共3页
提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地... 提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。 展开更多
关键词 关系抽取 特征选择 信息增益 期望交叉 x2统计
下载PDF
基于改进Nave Bayes的垃圾邮件过滤模型研究 被引量:10
7
作者 王涛 裘国永 何聚厚 《计算机工程与应用》 CSCD 北大核心 2007年第13期186-190,共5页
分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词... 分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。 展开更多
关键词 垃圾邮件过滤 朴素贝叶斯 期望交叉 特征选取
下载PDF
用于中文文本分类的基于类别区分词的特征选择方法 被引量:8
8
作者 周奇年 张振浩 徐登彩 《计算机应用与软件》 CSCD 北大核心 2013年第3期193-195,共3页
特征选择是中文文本分类过程中的一个重要过程,特征项选择的优劣直接影响文本分类的准确率。在分析几种特征选择方法的基础上,提出一种类别区分词的特征选择方法。实验结果表明,类别区分词的特征选择方法的分类效率高于传统方法,从而验... 特征选择是中文文本分类过程中的一个重要过程,特征项选择的优劣直接影响文本分类的准确率。在分析几种特征选择方法的基础上,提出一种类别区分词的特征选择方法。实验结果表明,类别区分词的特征选择方法的分类效率高于传统方法,从而验证了该方法的有效性。 展开更多
关键词 文本分类 特征选择 类别区分词 信息增益 互信息 期望交叉
下载PDF
基于索引项权重的文本特征选择方法 被引量:4
9
作者 王海鹃 韩立新 甄志龙 《计算机工程与设计》 CSCD 北大核心 2010年第5期1149-1151,共3页
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证... 为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证据权。利用KNN分类器在Reuters-21578标准数据集上进行训练和测试。实验结果表明,该方法能够选出有效特征,提高文本分类的性能。 展开更多
关键词 文本分类 特征选择 索引项权重 信息增益 期望交叉 文本证据权
下载PDF
中文文本自动分类中的特征选择改进与研究
10
作者 张振浩 周奇年 +1 位作者 杨继慧 徐登彩 《工业控制计算机》 2012年第11期89-90,92,共3页
特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区... 特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区分度对传统的特征选择算法进行改进。实验结果表明,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。 展开更多
关键词 中文文本自动分类 特征选择 类别区分度 互信息 期望交叉
下载PDF
文本分类中特征选择方法研究 被引量:3
11
作者 王维娜 康耀红 伍小芹 《信息技术》 2008年第12期29-31,共3页
对四种特征选择方法:互信息、信息增益、x2统计和期望交叉熵作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、宏平均和微平均对四种特征选择方法分别进行评估,提出并讨论了互信息修正的两种方法。
关键词 文本分类 特征选择 互信息 信息增益 x^2统计 期望交叉
下载PDF
融合词语共现距离和类别信息的短文本特征提取方法 被引量:2
12
作者 马慧芳 邢玉莹 +1 位作者 王双 张旭鹏 《计算机工程与科学》 CSCD 北大核心 2018年第9期1689-1695,共7页
针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这... 针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合。实验表明,该方法能够有效提高短文本特征提取的效果。 展开更多
关键词 短文本 共现距离 期望交叉 特征提取
下载PDF
基于背景重构与边缘相关短文本特征选择方法 被引量:1
13
作者 张海涛 王斌君 王靖亚 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2016年第3期469-475,共7页
为了解决短文本对象特征空间稀疏性与背景缺失造成的精确分类困难与语义混淆问题,提出一种背景补偿与边缘相关计算的特征选择方法.通过提取并利用文本间存在的关联性建立小样本簇背景特征集,重构特征空间,并结合边缘相关性分析确定最终... 为了解决短文本对象特征空间稀疏性与背景缺失造成的精确分类困难与语义混淆问题,提出一种背景补偿与边缘相关计算的特征选择方法.通过提取并利用文本间存在的关联性建立小样本簇背景特征集,重构特征空间,并结合边缘相关性分析确定最终的特征集.过程可分为2个阶段:1)基于词矢量语义量化模型计算特征词的背景相关性;2)将测试文本重组特征空间,并进行边缘性相关计算.提出的短文本特征选择方法,可以在保持原始特征空间性质与结构的前提下,强化特征空间紧凑性,减少冗余性,降低特征维度.在Reuters-21578和NewsGroup标准语料集上的实验证明,提出的方法比传统的文档频率、信息增益、互信息等方法更有效,针对两个标准的数据集,其在典型的分类器上运行表现强于一般特征选择方法. 展开更多
关键词 背景重构 期望交叉 边缘相关 特征选择
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部