期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
Comparison of Text Categorization Algorithms 被引量:4
1
作者 SHIYong-feng ZHAOYan-ping 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期798-804,共7页
This paper summarizes several automatic text categorization algorithms in common use recently, analyzes and compares their advantages and disadvantages. It provides clues for making use of appropriate automatic classi... This paper summarizes several automatic text categorization algorithms in common use recently, analyzes and compares their advantages and disadvantages. It provides clues for making use of appropriate automatic classifying algorithms in different fields. Finally some evaluations and summaries of these algorithms are discussed, and directions to further research have been pointed out. Key words text categorization - naive bayes - KNN - SVM - neural network CLC number TP 391 Foundation item: Supported by the National Natural Science Foundation of China (70031010) and the Research Foundation of Beijing Institute of TechnologyBiography: SHI Yong-feng (1980-), male, Master candidate, research direction: web information mining. 展开更多
关键词 text categorization naive bayes KNN svm neural network
下载PDF
A Novel Active Learning Method Using SVM for Text Classification 被引量:24
2
作者 Mohamed Goudjil Mouloud Koudil +1 位作者 Mouldi Bedda Noureddine Ghoggali 《International Journal of Automation and computing》 EI CSCD 2018年第3期290-298,共9页
Support vector machines(SVMs) are a popular class of supervised learning algorithms, and are particularly applicable to large and high-dimensional classification problems. Like most machine learning methods for data... Support vector machines(SVMs) are a popular class of supervised learning algorithms, and are particularly applicable to large and high-dimensional classification problems. Like most machine learning methods for data classification and information retrieval, they require manually labeled data samples in the training stage. However, manual labeling is a time consuming and errorprone task. One possible solution to this issue is to exploit the large number of unlabeled samples that are easily accessible via the internet. This paper presents a novel active learning method for text categorization. The main objective of active learning is to reduce the labeling effort, without compromising the accuracy of classification, by intelligently selecting which samples should be labeled.The proposed method selects a batch of informative samples using the posterior probabilities provided by a set of multi-class SVM classifiers, and these samples are then manually labeled by an expert. Experimental results indicate that the proposed active learning method significantly reduces the labeling effort, while simultaneously enhancing the classification accuracy. 展开更多
关键词 text categorization active learning support vector machine svm pool-based active learning pairwise coupling.
原文传递
利用Medline文摘数据库研究文本分类 被引量:2
3
作者 霍东云 聂峰光 郭力 《计算机与应用化学》 CAS CSCD 北大核心 2007年第9期1281-1284,共4页
文本分类领域的困难,在于如何获得大量人工标记好的分类样本数据集,Medline数据库在专家的长期维护下,具有完善的基于MeSH(Medical Subject Headings)的分类体系,以及大量的文摘,可用来制作分类样本数据集。本文介绍和研究Medline数据库... 文本分类领域的困难,在于如何获得大量人工标记好的分类样本数据集,Medline数据库在专家的长期维护下,具有完善的基于MeSH(Medical Subject Headings)的分类体系,以及大量的文摘,可用来制作分类样本数据集。本文介绍和研究Medline数据库,提出如何利用它构建良好的分类模型,实验表明,利用Medline文摘数据库,通过Major标记,特征项数目采用5000,训练样本采用600,利用SVM分类器,可得较好的分类模型,从而为文本分类研究提供一种实用、高效的数据集制作方式。 展开更多
关键词 medline 文本分类 svm
原文传递
基于SVM算法的文本分类技术研究 被引量:83
4
作者 崔建明 刘建明 廖周宇 《计算机仿真》 CSCD 北大核心 2013年第2期299-302,368,共5页
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题。针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性。采用支持向量机(SVM)的理论在文本分类... 在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题。针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性。采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类。在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题。 展开更多
关键词 支持向量机 文本分类 算法
下载PDF
一种文本分类的在线SVM学习算法 被引量:13
5
作者 代六玲 黄河燕 陈肇雄 《中文信息学报》 CSCD 北大核心 2005年第5期11-15,23,共6页
本文提出了一种用于文本分类的RBF支持向量机在线学习算法。利用RBF核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使... 本文提出了一种用于文本分类的RBF支持向量机在线学习算法。利用RBF核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使用ξa泛化错误估计在所有现有训练样本集上对当前SVM的泛化错误进行定性估计。同时引入泛化能力进化因子,使得结果SVM在分类效果上具有自动调整能力,并防止分类能力的退化。在TREC-5真实语料上的对比测试结果表明,该算法显著地加速了增量学习的过程而同时保证结果SVM的分类效果。 展开更多
关键词 计算机应用 中文信息处理 文本分类 在线学习 增量学习 支持向量机 SMO
下载PDF
一种新的多类SVM方法及其在文本分类中的应用 被引量:9
6
作者 张博锋 苏金树 徐昕 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期95-98,共4页
提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不... 提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不需要全部重新学习,需要的计算量较小。实验表明增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间;两种模式的分类效果与其他方法相当。 展开更多
关键词 机器学习 多类支持向量机 增量学习 文本分类 特征选择 数据挖掘
下载PDF
基于LDA-wSVM模型的文本分类研究 被引量:29
7
作者 李锋刚 梁钰 +1 位作者 GAO Xiao-zhi ZENGER Kai 《计算机应用研究》 CSCD 北大核心 2015年第1期21-25,共5页
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模... SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的w SVM分类器进行分类。实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果。实验结果表明,提出的LDA-w SVM模型在文本自动分类中具有很好的优越性能。 展开更多
关键词 文本分类 潜在狄利克雷分布 支持向量机 权重计算 吉普斯抽样
下载PDF
GA-SVM算法在文本分类中的应用研究 被引量:12
8
作者 宋淑彩 庞慧 丁学钧 《计算机仿真》 CSCD 北大核心 2011年第1期222-225,共4页
文本特征维数通常高达几万且特征之间存在大量冗余和不相关信息,从而导致传统的分类方法效率低、分类准确率低。为了提高文本分类的快速性和准确性,提出了一种遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法。把文本特征组合看作... 文本特征维数通常高达几万且特征之间存在大量冗余和不相关信息,从而导致传统的分类方法效率低、分类准确率低。为了提高文本分类的快速性和准确性,提出了一种遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法。把文本特征组合看作遗传算法中一个染色体,并进行二进制编码,将支持向量机分类准确率作为遗传算法的适应度函数,对每一个个体适应度的评价,通过选择、交叉和变异的遗传操作,得到文本最优特征,最后通过支持向量机利用最优特征进行分类。对复旦大学中文文本分类库进行仿真实验,实验结果表明,相对于传统的文本分类方法,能够快速地得到最优分类特征子集,大大提高文本分类的准确率,在文本挖掘中具有较好的应用前景。 展开更多
关键词 文本分类 遗传算法 支持向量机 特征选择
下载PDF
一种用于文本分类的语义SVM及其在线学习算法 被引量:2
9
作者 代六玲 黄河燕 陈肇雄 《计算机工程与应用》 CSCD 北大核心 2004年第36期11-14,57,共5页
该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生... 该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。 展开更多
关键词 文本分类 支持向量机 语义svm 在线学习
下载PDF
基于改进的SVM文本分类建模 被引量:7
10
作者 刘秀松 《情报理论与实践》 CSSCI 北大核心 2007年第6期841-843,共3页
SVM是一种新的分类工具,可是其核函数在数学上必须满足Mercer条件,使得具有良好全局分类性能的Sigmoid函数在SVM中应用受到限制。本文将Sigmoid核函数与云模型相结合,提出一种简单的核函数的实现方法。此方法不仅提高了SVM文本分类能力... SVM是一种新的分类工具,可是其核函数在数学上必须满足Mercer条件,使得具有良好全局分类性能的Sigmoid函数在SVM中应用受到限制。本文将Sigmoid核函数与云模型相结合,提出一种简单的核函数的实现方法。此方法不仅提高了SVM文本分类能力,而且明显地减少了平均的CPU执行时间。 展开更多
关键词 云模型 支持向量机 文本分类
下载PDF
基于SVM的哈萨克语文本分类 被引量:2
11
作者 王花 古丽拉.阿东别克 吴守用 《计算机应用》 CSCD 北大核心 2010年第6期1676-1678,共3页
介绍了支持向量机(SVM)和k-最近邻法(kNN)分类算法的思想和两种哈萨克语特征提取方法。对SVM、kNN和Bayes算法在哈萨克语文本分类的实验进行了比较。实验结果表明:在处理哈萨克语文本分类问题上,SVM较kNN和Bayes有较好的分类效果。由于... 介绍了支持向量机(SVM)和k-最近邻法(kNN)分类算法的思想和两种哈萨克语特征提取方法。对SVM、kNN和Bayes算法在哈萨克语文本分类的实验进行了比较。实验结果表明:在处理哈萨克语文本分类问题上,SVM较kNN和Bayes有较好的分类效果。由于哈萨克文单词的语素和构形的特点,若对哈萨克语词缀进行切分,则会降低文本分类的准确率和查全率。 展开更多
关键词 文本分类 支持向量机 特征选择 k-最近邻法
下载PDF
基于SVM的公安情报自动分类系统的研究与设计 被引量:1
12
作者 司志刚 牛琳 常朝稳 《计算机工程与应用》 CSCD 北大核心 2008年第28期226-229,共4页
依据公安情报文本中不同位置的词条对区分文本类别的贡献显著不同的特点,引入位置权重系数,改进了经典的文本特征权重计算方法(TF-IDF),使文本的权重能够更加全面地反映文本的类别信息。根据公安情报分类系统的需求,设计了基于支持向量... 依据公安情报文本中不同位置的词条对区分文本类别的贡献显著不同的特点,引入位置权重系数,改进了经典的文本特征权重计算方法(TF-IDF),使文本的权重能够更加全面地反映文本的类别信息。根据公安情报分类系统的需求,设计了基于支持向量机(SVM)的公安情报分类系统,该系统不仅能够实现情报文本的自动分类,而且能够保留在情报文本分类的不同阶段语料的特征信息,为情报信息的进一步加工处理提供支持,同时系统中各模块间采用松耦合的方式衔接,提高了系统的适应性和灵活性。通过实验验证了系统设计的合理性和有效性。 展开更多
关键词 文本分类 支持向量机 向量空间模型 公安情报
下载PDF
基于LIB-SVM的项目文本自动分类系统研究 被引量:2
13
作者 朱爱红 赵帅 毛民樑 《微计算机信息》 2011年第4期13-15,共3页
SVM是一种基于统计学习理论的新型机器学习方法,在文本分类领域能够取得很好的效果。对科研项目实施过程中生成的文本进行准确分类,有助于科研项目的科学管理与监督。本文利用LIB-SVM设计并实现了一个科研项目文本自动分类系统,实验结... SVM是一种基于统计学习理论的新型机器学习方法,在文本分类领域能够取得很好的效果。对科研项目实施过程中生成的文本进行准确分类,有助于科研项目的科学管理与监督。本文利用LIB-SVM设计并实现了一个科研项目文本自动分类系统,实验结果表明,该系统能够对项目文本准确分类,方法实用有效。 展开更多
关键词 项目管理 LIB-svm 文本自动分类
下载PDF
带有云化核函数的SVM文本分类方法 被引量:1
14
作者 刘秀松 《科技情报开发与经济》 2007年第30期13-15,共3页
为了简化计算,提高分类速度,在支持向量机分类基础上,将sigmoid核函数与云模型相结合,提出了一种简单的核函数的实现方法。这种方法不仅提高了SVM文本分类能力,而且明显地减少了平均的CPU执行时间。
关键词 云模型 svm sigmoid核函数 文本分类
下载PDF
基于SVM的维吾尔文文本分类研究 被引量:11
15
作者 阿力木江.艾沙 吐尔根.依布拉音 +1 位作者 库尔班.吾布力 艾山.吾买尔 《计算机工程与科学》 CSCD 北大核心 2012年第12期150-154,共5页
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法... 文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。 展开更多
关键词 文本分类 svm KNN 维吾尔语
下载PDF
改进偏二叉树多类SVM的文本分类
16
作者 周靖 《广东石油化工学院学报》 2011年第4期56-58,66,共4页
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间... 在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。 展开更多
关键词 文本分类 多类分类 支持向量机 偏二叉树
下载PDF
改进的SVM在语音识别文本分类中的应用 被引量:1
17
作者 赵培 牛纪桢 史金艳 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期137-140,共4页
利用改进的SVM分类算法处理汉语语音识别结果文本的分类问题,针对语音识别文本的特点简化了文本分类的预处理过程,调整支持向量机的分类超平面,并且自动优化参数,结合实际的识别结果文本集测试了改进的SVM性能,同时实现了KNN和贝叶斯分... 利用改进的SVM分类算法处理汉语语音识别结果文本的分类问题,针对语音识别文本的特点简化了文本分类的预处理过程,调整支持向量机的分类超平面,并且自动优化参数,结合实际的识别结果文本集测试了改进的SVM性能,同时实现了KNN和贝叶斯分类算法,对3种分类性能进行了评价。 展开更多
关键词 文本分类 支持向量机 K-近邻 朴素贝叶斯
下载PDF
基于SA-SVM的中文文本分类研究 被引量:19
18
作者 郭超磊 陈军华 《计算机应用与软件》 北大核心 2019年第3期277-281,共5页
基于支持向量机SVM的中文文本分类方法的泛化能力与其参数选取紧密相关,参数优化对文本分类精度有较大影响。为解决优化SVM参数难题,提出一种基于模拟退火(SA)优化SVM的文本分类方法。将文本分类准确率作为模拟退火的优化目标,利用SA良... 基于支持向量机SVM的中文文本分类方法的泛化能力与其参数选取紧密相关,参数优化对文本分类精度有较大影响。为解决优化SVM参数难题,提出一种基于模拟退火(SA)优化SVM的文本分类方法。将文本分类准确率作为模拟退火的优化目标,利用SA良好的寻优能力搜索SVM的最优参数组合。在相同的数据集上进行实验,结果表明模拟退火具有稳定的全局搜索性能,是优化SVM参数的一种有效方式。相比其他文本分类算法,基于SA-SVM的中文文本分类的分类准确率更高,泛化能力更强,具有良好的分类性能。 展开更多
关键词 中文文本分类 支持向量机 模拟退火 参数优化
下载PDF
一种新的SVM多层增量学习方法HISVML 被引量:1
19
作者 冯佳 宋胜利 +1 位作者 王荔 陈平 《微电子学与计算机》 CSCD 北大核心 2009年第5期216-218,222,共4页
为了有效的解决支持向量机(SVM)在文本分类中的增量学习问题,文中提出了一种基于树结构的在线学习方法-HISVML.该方法通过将增量学习任务限制在分类子树中来达到减少工作量的目的.实验证明,HISVML比普通的单层增量学习器训练时间短、准... 为了有效的解决支持向量机(SVM)在文本分类中的增量学习问题,文中提出了一种基于树结构的在线学习方法-HISVML.该方法通过将增量学习任务限制在分类子树中来达到减少工作量的目的.实验证明,HISVML比普通的单层增量学习器训练时间短、准确率高. 展开更多
关键词 支持向量机 增量学习 关键词学习 文本分类
下载PDF
基于SVM的商品评分系统
20
作者 张家城 朱艳辉 《电脑知识与技术》 2018年第10X期223-225,共3页
随着网购平台快速崛起,如何快速准确地在海量的消费者评价文本当中提取消费者对商品评论的主观倾向成为近年来的研究热点。本文以商品评论文本倾向识别为研究对象,使用SVM算法,实现了基于SVM的商品评分系统,并实现了客户端和训练端的分... 随着网购平台快速崛起,如何快速准确地在海量的消费者评价文本当中提取消费者对商品评论的主观倾向成为近年来的研究热点。本文以商品评论文本倾向识别为研究对象,使用SVM算法,实现了基于SVM的商品评分系统,并实现了客户端和训练端的分离,方便训练端实现分布式架构。 展开更多
关键词 文本分类 倾向识别 支持向量机 svm算法 商品评分
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部