期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
一种改进的KNN Web文本分类方法 被引量:9
1
作者 吴春颖 王士同 《计算机应用研究》 CSCD 北大核心 2008年第11期3275-3277,共3页
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方... KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。 展开更多
关键词 web文本分类 K最近邻 快速分类
下载PDF
一种扩展的基于VSM的Web文本分类算法 被引量:2
2
作者 饶文碧 柯慧燕 张丽 《计算机应用与软件》 CSCD 北大核心 2006年第10期113-115,共3页
随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法... 随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法产生的效果明显优于当前其他的分类方法。 展开更多
关键词 web文本分类 向量空间模型 反馈判定 再学习
下载PDF
一种结合层次结构和KNN的Web文本分类方法 被引量:2
3
作者 吴春颖 王士同 杨林波 《小型微型计算机系统》 CSCD 北大核心 2009年第8期1555-1560,共6页
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这... 在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果. 展开更多
关键词 层次结构 KNN web文本分类
下载PDF
无标记训练样本的Web文本分类方法 被引量:2
4
作者 刘丽珍 宋瀚涛 陆玉昌 《计算机科学》 CSCD 北大核心 2006年第3期200-201,211,共3页
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法 FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记... 在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法 FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记文本,为监督学习找到分类依据,并结合朴素贝叶斯增量学习方式进行分类器的学习。本文进一步用估计分类误差损失的方法平衡选取候选样本,提高了分类准确率,实现了应用范围更加广泛的无标记文本分类学习模型。 展开更多
关键词 web文本分类 模糊聚类 朴素贝叶斯
下载PDF
Web文本分类技术研究及其实现 被引量:5
5
作者 饶文碧 柯慧燕 《计算机技术与发展》 2006年第3期116-118,共3页
随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模... 随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模型和算法。通过系列实验表明,该算法具有较高的分类精度和查准率。 展开更多
关键词 web文本分类 向量空间模型 特征提取 反馈判定
下载PDF
Web文本分类技术研究现状述评 被引量:7
6
作者 高淑琴 《图书情报知识》 CSSCI 北大核心 2008年第3期81-86,共6页
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发... 本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。 展开更多
关键词 web文本分类 数据挖掘 机器学习
下载PDF
基于二叉树的多类SVM在Web文本分类中的应用研究 被引量:2
7
作者 古丽娜孜 孙铁利 《新疆大学学报(自然科学版)》 CAS 2011年第1期100-104,共5页
针对现有多分类支持向量机算法所存在的训练时间长、判别速度慢等问题,提出了一种二叉树多类支持向量机算法,该算法能够有效减少支持向量的个数,从而减少训练时间.为了验证算法的有效性,将该算法分别同l-v-r算法和l-v-1算法进行了比较,... 针对现有多分类支持向量机算法所存在的训练时间长、判别速度慢等问题,提出了一种二叉树多类支持向量机算法,该算法能够有效减少支持向量的个数,从而减少训练时间.为了验证算法的有效性,将该算法分别同l-v-r算法和l-v-1算法进行了比较,实验结果表明,提出的算法是有效可行的. 展开更多
关键词 web文本分类 二叉树 分类SVM
下载PDF
一种新的基于SVM-KNN的Web文本分类算法 被引量:4
8
作者 曹建芳 王鸿斌 《计算机与数字工程》 2010年第4期59-61,共3页
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进... 在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进,收到了良好的分类效果。 展开更多
关键词 SVM KNN web文本分类 机器学习
下载PDF
基于Hadoop的Web文本分类系统设计研究 被引量:1
9
作者 赵文娟 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第6期892-896,共5页
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系... 针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性. 展开更多
关键词 web文本分类 HADOOP HDFS MAPREDUCE
下载PDF
Web文本分类中特征选择的研究 被引量:1
10
作者 石芙芙 董祥军 陈修宽 《山东轻工业学院学报(自然科学版)》 CAS 2009年第3期22-24,共3页
Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行... Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势。 展开更多
关键词 web文本分类 向量空间模型 特征选择
下载PDF
基于粗糙集与支持向量机的Web文本分类 被引量:1
11
作者 王娟 《漳州师范学院学报(自然科学版)》 2009年第3期37-42,共6页
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训... Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率. 展开更多
关键词 粗糙集 支持向量机 web文本分类
下载PDF
基于粗糙集与KNN的Web文本分类的研究
12
作者 桂海霞 孟祥瑞 《安徽理工大学学报(自然科学版)》 CAS 2008年第4期89-92,共4页
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采... 为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。 展开更多
关键词 web文本分类 粗糙集 KNN 属性约简
下载PDF
基于优化的多核学习方法的Web文本分类的研究
13
作者 江伟 潘昊 《计算机技术与发展》 2013年第10期80-82,86,共4页
Web文本分类技术是数据挖掘中一个重要研究领域,为了能从海量信息中快速检索遍布网络各处的文档,需要提高Web文本分类技术的性能。多核学习方法是当前机器学习领域的一个热点,可以显著提升分类识别能力和学习推广能力,而核方法是解决高... Web文本分类技术是数据挖掘中一个重要研究领域,为了能从海量信息中快速检索遍布网络各处的文档,需要提高Web文本分类技术的性能。多核学习方法是当前机器学习领域的一个热点,可以显著提升分类识别能力和学习推广能力,而核方法是解决高维非线性模式分析的有效方法之一。利用多核代替单核能增强决策函数的可解释性并获得更优的性能。文中分析研究了一种基于优化的多核学习的支持向量机,在此基础上结合通用的Web文本分类模型,提出了一种基于多核学习支持向量机的Web分类方法。通过实验测试表明,该方法具有良好的效果,对比一致组合的多核学习方法,所提出的方法具有较高的准确率。 展开更多
关键词 支持向量机 数据挖掘 多核学习 web文本分类
下载PDF
基于RBF神经网络的Web文本分类的研究 被引量:1
14
作者 徐春雨 《电脑知识与技术》 2011年第5期3107-3108,3111,共3页
Web文本分类是采用文本分类技术将Web上的信息进行自动分类,使用户能够快速找到自己想要的资源。文本分类的过程中,将特征提取之后的来自Web的数据分成样本数据集和测试数据集,将样本数据集输入到RBF网络中进行训练,RBF网络经过训练之后... Web文本分类是采用文本分类技术将Web上的信息进行自动分类,使用户能够快速找到自己想要的资源。文本分类的过程中,将特征提取之后的来自Web的数据分成样本数据集和测试数据集,将样本数据集输入到RBF网络中进行训练,RBF网络经过训练之后,输入测试数据集中的数据进行验证,实验证明,RBF网络取得了较好的分类结果。 展开更多
关键词 web文本分类 RBF网络 高斯函数 梯度下降法
下载PDF
Web文本分类中的标签权重自动优化研究 被引量:4
15
作者 钟旭东 黄章进 +1 位作者 顾乃杰 张旭 《小型微型计算机系统》 CSCD 北大核心 2016年第5期890-894,共5页
Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题... Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题,本文设计和实现了一种基于差分进化算法的Web文本标签权重系数自动寻优方案,并对差分优化算法进行了改进,以提高其局部搜索能力.实验结果表明,该方案能充分利用样本集的特性并能有效地提高分类的准确率. 展开更多
关键词 web文本分类 自动权重调优 差分进化算法 半结构特征
下载PDF
利用表格特征信息的Web文本分类研究与实现
16
作者 桂海霞 《计算机时代》 2008年第12期38-40,共3页
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,... 构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。最后通过实验验证了该方法的可行性。 展开更多
关键词 web文本分类 特征信息 领域本体 相似度匹配
下载PDF
Web文本分类技术研究
17
作者 王娟 《福建电脑》 2008年第9期107-107,109,共2页
Web文本分类是Web数据挖掘的一个重要研究方向,本文在研究了Web文本分类的特征项权重计算方法的基础上,提出一种改进的TF-IDF特征项权重公式,并通过实验加以验证。
关键词 web文本分类 特征项权重 TF-IDF
下载PDF
基于改进BoS的Web文本分类研究 被引量:1
18
作者 彭俊杰 陈丹敏 《南京邮电大学学报(自然科学版)》 北大核心 2013年第1期79-83,共5页
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度。改进后的文本相似度计算方法为:先根据句子相似度的计算方法... 提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度。改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度。经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高。 展开更多
关键词 web文本分类 句子包 向量空间模型 文本挖掘
下载PDF
一种基于改进贝叶斯算法的Web文本分类方法 被引量:1
19
作者 徐小伟 成亚谊 《现代计算机(中旬刊)》 2012年第4期3-7,共5页
针对基于互补贝叶斯的分类算法在数据倾斜分布时由于过学习现象导致分类准确度不理想的状况,提出一种改进的互补贝叶斯分类算法。通过实验分析数据的倾斜分布对改进后的互补贝叶斯算法的影响,经验证该算法能够在数据倾斜分布时依然能保... 针对基于互补贝叶斯的分类算法在数据倾斜分布时由于过学习现象导致分类准确度不理想的状况,提出一种改进的互补贝叶斯分类算法。通过实验分析数据的倾斜分布对改进后的互补贝叶斯算法的影响,经验证该算法能够在数据倾斜分布时依然能保持较高的分类准确度,并且能随数据倾斜分布表现出较好的鲁棒性。讨论普通文本与Web文本的不同,建立一种带有主题权重的文档向量模型,并分析主题权重对文本算法的影响。实验发现,使用带有主题权重的文档向量模型,能够使得分类准确率相比普通的文本分类提高5%。 展开更多
关键词 朴素贝叶斯 互补贝叶斯 web文本分类 倾斜数据分布
下载PDF
维、哈、柯多文种搜索引擎中web文本分类的研究 被引量:3
20
作者 海丽且木.艾沙 维尼拉.木沙江 《新疆大学学报(自然科学版)》 CAS 2011年第3期362-365,共4页
研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的... 研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的KNN方法在维吾尔文Web文本分类中能够获得较好的分类效果. 展开更多
关键词 web文本分类 KNN算法 特征提取 维吾尔文
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部