期刊文献+
共找到250篇文章
< 1 2 13 >
每页显示 20 50 100
Ensemble Filter-Wrapper Text Feature Selection Methods for Text Classification
1
作者 Oluwaseun Peter Ige Keng Hoon Gan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第11期1847-1865,共19页
Feature selection is a crucial technique in text classification for improving the efficiency and effectiveness of classifiers or machine learning techniques by reducing the dataset’s dimensionality.This involves elim... Feature selection is a crucial technique in text classification for improving the efficiency and effectiveness of classifiers or machine learning techniques by reducing the dataset’s dimensionality.This involves eliminating irrelevant,redundant,and noisy features to streamline the classification process.Various methods,from single feature selection techniques to ensemble filter-wrapper methods,have been used in the literature.Metaheuristic algorithms have become popular due to their ability to handle optimization complexity and the continuous influx of text documents.Feature selection is inherently multi-objective,balancing the enhancement of feature relevance,accuracy,and the reduction of redundant features.This research presents a two-fold objective for feature selection.The first objective is to identify the top-ranked features using an ensemble of three multi-univariate filter methods:Information Gain(Infogain),Chi-Square(Chi^(2)),and Analysis of Variance(ANOVA).This aims to maximize feature relevance while minimizing redundancy.The second objective involves reducing the number of selected features and increasing accuracy through a hybrid approach combining Artificial Bee Colony(ABC)and Genetic Algorithms(GA).This hybrid method operates in a wrapper framework to identify the most informative subset of text features.Support Vector Machine(SVM)was employed as the performance evaluator for the proposed model,tested on two high-dimensional multiclass datasets.The experimental results demonstrated that the ensemble filter combined with the ABC+GA hybrid approach is a promising solution for text feature selection,offering superior performance compared to other existing feature selection algorithms. 展开更多
关键词 Metaheuristic algorithms text classification multi-univariate filter feature selection ensemble filter-wrapper techniques
下载PDF
A new feature selection method for handling redundant information in text classification 被引量:3
2
作者 You-wei WANG Li-zhou FENG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2018年第2期221-234,共14页
Feature selection is an important approach to dimensionality reduction in the field of text classification. Because of the difficulty in handling the problem that the selected features always contain redundant informa... Feature selection is an important approach to dimensionality reduction in the field of text classification. Because of the difficulty in handling the problem that the selected features always contain redundant information, we propose a new simple feature selection method, which can effectively filter the redundant features. First, to calculate the relationship between two words, the definitions of word frequency based relevance and correlative redundancy are introduced. Furthermore, an optimal feature selection(OFS) method is chosen to obtain a feature subset FS1. Finally, to improve the execution speed, the redundant features in FS1 are filtered by combining a predetermined threshold, and the filtered features are memorized in the linked lists. Experiments are carried out on three datasets(Web KB, 20-Newsgroups, and Reuters-21578) where in support vector machines and na?ve Bayes are used. The results show that the classification accuracy of the proposed method is generally higher than that of typical traditional methods(information gain, improved Gini index, and improved comprehensively measured feature selection) and the OFS methods. Moreover, the proposed method runs faster than typical mutual information-based methods(improved and normalized mutual information-based feature selections, and multilabel feature selection based on maximum dependency and minimum redundancy) while simultaneously ensuring classification accuracy. Statistical results validate the effectiveness of the proposed method in handling redundant information in text classification. 展开更多
关键词 feature selection Dimensionality reduction text classification Redundant features Support vector machine Naive Bayes Mutual information
原文传递
Feature selection algorithm for text classification based on improved mutual information 被引量:1
3
作者 丛帅 张积宾 +1 位作者 徐志明 王宇颖 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2011年第3期144-148,共5页
In order to solve the poor performance in text classification when using traditional formula of mutual information (MI) , a feature selection algorithm were proposed based on improved mutual information. The improve... In order to solve the poor performance in text classification when using traditional formula of mutual information (MI) , a feature selection algorithm were proposed based on improved mutual information. The improved mutual information algorithm, which is on the basis of traditional improved mutual information methods that enbance the MI value of negative characteristics and feature' s frequency, supports the concept of concentration degree and dispersion degree. In accordance with the concept of concentration degree and dispersion degree, formulas which embody concentration degree and dispersion degree were constructed and the improved mutual information was implemented based on these. In this paper, the feature selection algorithm was applied based on improved mutual information to a text classifier based on Biomimetic Pattern Recognition and it was compared with several other feature selection methods. The experimental results showed that the improved mutu- al information feature selection method greatly enhances the performance compared with traditional mutual information feature selection methods and the performance is better than that of information gain. Through the introduction of the concept of concentration degree and dispersion degree, the improved mutual information feature selection method greatly improves the performance of text classification system. 展开更多
关键词 text classification feature selection improved mutual information: Biomimetie Pattern Recognition
下载PDF
Text Classification Using Support Vector Machine with Mixture of Kernel 被引量:1
4
作者 Liwei Wei Bo Wei Bin Wang 《Journal of Software Engineering and Applications》 2012年第12期55-58,共4页
Recent studies have revealed that emerging modern machine learning techniques are advantageous to statistical models for text classification, such as SVM. In this study, we discuss the applications of the support vect... Recent studies have revealed that emerging modern machine learning techniques are advantageous to statistical models for text classification, such as SVM. In this study, we discuss the applications of the support vector machine with mixture of kernel (SVM-MK) to design a text classification system. Differing from the standard SVM, the SVM-MK uses the 1-norm based object function and adopts the convex combinations of single feature basic kernels. Only a linear programming problem needs to be resolved and it greatly reduces the computational costs. More important, it is a transparent model and the optimal feature subset can be obtained automatically. A real Chinese corpus from FudanUniversityis used to demonstrate the good performance of the SVM- MK. 展开更多
关键词 text classification SVM-MK feature selection classification model SVM
下载PDF
Hierarchical Classification of Chinese Documents Based on N grams 被引量:1
5
作者 Zhou Shui geng 1, Guan Ji hong 2, He Yan xiang 2 1. State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072, China 2. School of Computer Science, Wuhan University, Wuhan 430072, China 《Wuhan University Journal of Natural Sciences》 CAS 2001年第Z1期416-422,共7页
We explore the techniques of utilizing N gram information to categorize Chinese text documents hierarchically so that the classifier can shake off the burden of large dictionaries and complex segmentation process... We explore the techniques of utilizing N gram information to categorize Chinese text documents hierarchically so that the classifier can shake off the burden of large dictionaries and complex segmentation processing, and subsequently be domain and time independent. A hierarchical Chinese text classifier is implemented. Experimental results show that hierarchically classifying Chinese text documents based N grams can achieve satisfactory performance and outperforms the other traditional Chinese text classifiers. 展开更多
关键词 Chinese text classification N grams feature selection hierarchical classification
下载PDF
基于改进TF-IDF融合二进制灰狼优化的短文本分类
6
作者 杨东 毋涛 +1 位作者 赵雪青 李猛 《计算机技术与发展》 2024年第8期37-41,共5页
为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计... 为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计算,设计改进了TF-IDF-RANK方法对特征进行加权;同时,基于初选特征向量,设计优化了二进制灰狼优化算法(BGWO)搜寻最优特征子集,引入衰减系数向量和多优解迭代机制,提高灰狼搜寻性能。结果表明,该方法有效地提升了权重准确率,更好地表征初选特征向量,增强特征选择时寻找全局最优解的能力,进而提高短文本的分类效果。通过LABIC和抖音开放平台数据集测试,综合指标F1值分别提高了14.76%和14.02%,验证了该方法对于特殊类型文本分类的有效性。 展开更多
关键词 短文本分类 特征加权 TF-IDF-RANK方法 特征选择 二进制灰狼优化
下载PDF
最大相关最小冗余两阶段文本特征选择方法
7
作者 冷婷 叶仁玉 徐思蓉 《安徽理工大学学报(自然科学版)》 CAS 2024年第3期83-89,共7页
目的为解决传统卡方统计法(CHI)仅考虑文本特征与文本类别的相关性进行特征选择,未考虑特征之间的冗余性,导致文本分类的性能不佳的问题。方法使用最大相关最小冗余原则,对CHI法初次选择的特征子集,利用强相关低冗余思想有目的地筛选低... 目的为解决传统卡方统计法(CHI)仅考虑文本特征与文本类别的相关性进行特征选择,未考虑特征之间的冗余性,导致文本分类的性能不佳的问题。方法使用最大相关最小冗余原则,对CHI法初次选择的特征子集,利用强相关低冗余思想有目的地筛选低冗余特征,提升文本特征选择效果,提出一种基于最大相关最小冗余的两阶段文本特征选择方法(CHI_impMI)。结果对复旦大学新闻文本语料进行分类,相比于CHI和CHI_MI特征选择方法,CHI_impMI方法的性能指标均为最优,文本分类效果最好。结论CHI_impMI方法在相关度与冗余度之间达到了很好的平衡,从而有效提升文本分类性能。 展开更多
关键词 卡方统计方法 最大相关最小冗余原则 互信息 文本分类 特征选择
下载PDF
一种基于向量空间模型的多层次文本分类方法 被引量:75
8
作者 刘少辉 董明楷 +2 位作者 张海俊 李蓉 史忠植 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提... 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 展开更多
关键词 多层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类
下载PDF
基于文本分类TFIDF方法的改进与应用 被引量:121
9
作者 张玉芳 彭时名 吕佳 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期76-78,共3页
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TF... TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。 展开更多
关键词 文本分类 特征选择 TFIDF 类别区分
下载PDF
基于信息增益的文本特征选择方法 被引量:31
10
作者 任永功 杨荣杰 +1 位作者 尹明飞 马名威 《计算机科学》 CSCD 北大核心 2012年第11期127-130,共4页
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权... 在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 展开更多
关键词 特征选择 文本分类 信息增益值 冗余特征 不平衡数据集
下载PDF
基于方差的CHI特征选择方法 被引量:30
11
作者 邱云飞 王威 +1 位作者 刘大有 邵良杉 《计算机应用研究》 CSCD 北大核心 2012年第4期1304-1306,共3页
通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法... 通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法,基于方差的卡方统计(Var-CHI)方法使得查全率和查准率都得到了明显的提高。 展开更多
关键词 文本分类 特征选择 卡方统计量 方差
下载PDF
领域术语自动抽取及其在文本分类中的应用 被引量:31
12
作者 刘桃 刘秉权 +1 位作者 徐志明 王晓龙 《电子学报》 EI CAS CSCD 北大核心 2007年第2期328-332,共5页
本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能... 本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能更准确有效地抽取领域术语.本文还将该算法应用于文本分类,用于代替传统特征选择算法,实验表明,该算法能够显著提高文本分类的精度. 展开更多
关键词 领域术语 信息熵 正规化 文本分类 特征选择
下载PDF
基于互信息最大化的特征选择算法及应用 被引量:35
13
作者 唐亮 段建国 +1 位作者 许洪波 梁玲 《计算机工程与应用》 CSCD 北大核心 2008年第13期130-133,共4页
该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互... 该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互信息和交叉熵在表达形式上具有一定的相似性,但是并不完全相同。从实验上验证了基于互信息最大化的特征选择算法优于其它三种算法。 展开更多
关键词 文本分类 特征选择 交叉熵 信息增益 互信息最大化
下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
14
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
下载PDF
基于相关性和冗余度的联合特征选择方法 被引量:15
15
作者 周城 葛斌 +1 位作者 唐九阳 肖卫东 《计算机科学》 CSCD 北大核心 2012年第4期181-184,共4页
比较研究了与类别信息无关的文档频率和与类别信息有关的信息增益、互信息和χ2统计特征选择方法,在此基础上分析了以往直接组合这两类特征选择方法的弊端,并提出基于相关性和冗余度的联合特征选择算法。该算法将文档频率方法分别与信... 比较研究了与类别信息无关的文档频率和与类别信息有关的信息增益、互信息和χ2统计特征选择方法,在此基础上分析了以往直接组合这两类特征选择方法的弊端,并提出基于相关性和冗余度的联合特征选择算法。该算法将文档频率方法分别与信息增益、互信息和χ2统计方法联合进行特征选择,旨在删除冗余特征,并保留有利于分类的特征,从而提高文本情感分类效果。实验结果表明,该联合特征选择方法具有较好的性能,并且能够有效降低特征维数。 展开更多
关键词 文本情感分类 联合特征选择 相关性 冗余特征
下载PDF
文本分类中一种混合型特征降维方法 被引量:11
16
作者 刘海峰 王元元 +1 位作者 姚泽清 张述祖 《计算机工程》 CAS CSCD 北大核心 2009年第2期194-196,共3页
提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异信息对特征集进行初步选择。使用一种新的基于PCA的特征抽取方法对剩余特征集进行二次抽取,在最大限度... 提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异信息对特征集进行初步选择。使用一种新的基于PCA的特征抽取方法对剩余特征集进行二次抽取,在最大限度减少信息损失的前提下实现了文本特征的有效降维。对文本的分类实验结果表明,该特征降维方法具有良好的分类效果。 展开更多
关键词 文本分类 特征选择 特征抽取 主成分分析
下载PDF
一个无需词典支持和切词处理的中文文档分类系统 被引量:23
17
作者 周水庚 关佶红 +1 位作者 胡运发 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期839-844,共6页
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统... 报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 . 展开更多
关键词 中文文档分类系统 词典支持 切词处理 中文信息处理 INTERNET
下载PDF
基于支持向量机的Web文本分类方法 被引量:19
18
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《微电子学与计算机》 CSCD 北大核心 2006年第9期102-104,共3页
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结... Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 展开更多
关键词 支持向量机 特征提取 WEB文本 文本分类
下载PDF
基于特征选择技术的情感词权重计算 被引量:13
19
作者 吴金源 冀俊忠 +2 位作者 赵学武 吴晨生 杜芳华 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期142-151,共10页
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难.针对此问题,提出... 在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难.针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法.首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益(information gain,IG)和卡方统计量(chi-square,CHI),将特征选择技术应用于情感词权重计算.实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度. 展开更多
关键词 文本情感分类 情感词典构建 特征选择 权重计算
下载PDF
商品评论情感倾向性分析 被引量:20
20
作者 李明 胡吉霞 +1 位作者 侯琳娜 严峻 《计算机应用》 CSCD 北大核心 2019年第S02期15-19,共5页
针对粗粒度的商品评论情感分析不能详尽地提供用户喜好问题,提出一种基于支持向量机(SVM)结合点互信息(PMI)的细粒度商品评论情感分析方法。首先,使用卡方检验方法进行文本特征选择和降维;接着,对朴素贝叶斯、决策树、支持向量机(SVM)、... 针对粗粒度的商品评论情感分析不能详尽地提供用户喜好问题,提出一种基于支持向量机(SVM)结合点互信息(PMI)的细粒度商品评论情感分析方法。首先,使用卡方检验方法进行文本特征选择和降维;接着,对朴素贝叶斯、决策树、支持向量机(SVM)、K最邻近算法(K NN)四种常用情感分类方法进行比较,支持向量机(SVM)的召回率和精确率最高,均达到94.5%,所以使用支持向量机(SVM)对商品评论进行粗粒度的情感分析;然后,根据人工经验总结典型的商品属性,使用点互信息(PMI)方法对商品属性扩充;最后针,对扩充后的商品属性,在以上粗粒度的商品评论情感分析基础上,进行细粒度的情感分析及统计。细粒度的商品评论情感分析,可使厂家看到用户对产品属性的喜好,以及在产品设计、销售及服务中需要改进的方面。 展开更多
关键词 情感分析 特征选择 文本分类 机器学习 商品属性
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部