期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
37
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种改进的KNN Web文本分类方法
被引量:
9
1
作者
吴春颖
王士同
《计算机应用研究》
CSCD
北大核心
2008年第11期3275-3277,共3页
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方...
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。
展开更多
关键词
web文本分类
K最近邻
快速
分类
下载PDF
职称材料
一种扩展的基于VSM的Web文本分类算法
被引量:
2
2
作者
饶文碧
柯慧燕
张丽
《计算机应用与软件》
CSCD
北大核心
2006年第10期113-115,共3页
随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法...
随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法产生的效果明显优于当前其他的分类方法。
展开更多
关键词
web文本分类
向量空间模型
反馈判定
再学习
下载PDF
职称材料
一种结合层次结构和KNN的Web文本分类方法
被引量:
2
3
作者
吴春颖
王士同
杨林波
《小型微型计算机系统》
CSCD
北大核心
2009年第8期1555-1560,共6页
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这...
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果.
展开更多
关键词
层次结构
KNN
web文本分类
下载PDF
职称材料
无标记训练样本的Web文本分类方法
被引量:
2
4
作者
刘丽珍
宋瀚涛
陆玉昌
《计算机科学》
CSCD
北大核心
2006年第3期200-201,211,共3页
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法 FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记...
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法 FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记文本,为监督学习找到分类依据,并结合朴素贝叶斯增量学习方式进行分类器的学习。本文进一步用估计分类误差损失的方法平衡选取候选样本,提高了分类准确率,实现了应用范围更加广泛的无标记文本分类学习模型。
展开更多
关键词
web文本分类
模糊聚类
朴素贝叶斯
下载PDF
职称材料
Web文本分类技术研究及其实现
被引量:
5
5
作者
饶文碧
柯慧燕
《计算机技术与发展》
2006年第3期116-118,共3页
随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模...
随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模型和算法。通过系列实验表明,该算法具有较高的分类精度和查准率。
展开更多
关键词
web文本分类
向量空间模型
特征提取
反馈判定
下载PDF
职称材料
Web文本分类技术研究现状述评
被引量:
7
6
作者
高淑琴
《图书情报知识》
CSSCI
北大核心
2008年第3期81-86,共6页
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发...
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。
展开更多
关键词
web文本分类
数据挖掘
机器学习
下载PDF
职称材料
基于二叉树的多类SVM在Web文本分类中的应用研究
被引量:
2
7
作者
古丽娜孜
孙铁利
《新疆大学学报(自然科学版)》
CAS
2011年第1期100-104,共5页
针对现有多分类支持向量机算法所存在的训练时间长、判别速度慢等问题,提出了一种二叉树多类支持向量机算法,该算法能够有效减少支持向量的个数,从而减少训练时间.为了验证算法的有效性,将该算法分别同l-v-r算法和l-v-1算法进行了比较,...
针对现有多分类支持向量机算法所存在的训练时间长、判别速度慢等问题,提出了一种二叉树多类支持向量机算法,该算法能够有效减少支持向量的个数,从而减少训练时间.为了验证算法的有效性,将该算法分别同l-v-r算法和l-v-1算法进行了比较,实验结果表明,提出的算法是有效可行的.
展开更多
关键词
web文本分类
二叉树
多
分类
SVM
下载PDF
职称材料
一种新的基于SVM-KNN的Web文本分类算法
被引量:
4
8
作者
曹建芳
王鸿斌
《计算机与数字工程》
2010年第4期59-61,共3页
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进...
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进,收到了良好的分类效果。
展开更多
关键词
SVM
KNN
web文本分类
机器学习
下载PDF
职称材料
基于Hadoop的Web文本分类系统设计研究
被引量:
1
9
作者
赵文娟
《兰州大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第6期892-896,共5页
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系...
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.
展开更多
关键词
web文本分类
HADOOP
HDFS
MAPREDUCE
下载PDF
职称材料
Web文本分类中特征选择的研究
被引量:
1
10
作者
石芙芙
董祥军
陈修宽
《山东轻工业学院学报(自然科学版)》
CAS
2009年第3期22-24,共3页
Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行...
Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势。
展开更多
关键词
web文本分类
向量空间模型
特征选择
下载PDF
职称材料
基于粗糙集与支持向量机的Web文本分类
被引量:
1
11
作者
王娟
《漳州师范学院学报(自然科学版)》
2009年第3期37-42,共6页
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训...
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.
展开更多
关键词
粗糙集
支持向量机
web文本分类
下载PDF
职称材料
基于粗糙集与KNN的Web文本分类的研究
12
作者
桂海霞
孟祥瑞
《安徽理工大学学报(自然科学版)》
CAS
2008年第4期89-92,共4页
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采...
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。
展开更多
关键词
web文本分类
粗糙集
KNN
属性约简
下载PDF
职称材料
基于优化的多核学习方法的Web文本分类的研究
13
作者
江伟
潘昊
《计算机技术与发展》
2013年第10期80-82,86,共4页
Web文本分类技术是数据挖掘中一个重要研究领域,为了能从海量信息中快速检索遍布网络各处的文档,需要提高Web文本分类技术的性能。多核学习方法是当前机器学习领域的一个热点,可以显著提升分类识别能力和学习推广能力,而核方法是解决高...
Web文本分类技术是数据挖掘中一个重要研究领域,为了能从海量信息中快速检索遍布网络各处的文档,需要提高Web文本分类技术的性能。多核学习方法是当前机器学习领域的一个热点,可以显著提升分类识别能力和学习推广能力,而核方法是解决高维非线性模式分析的有效方法之一。利用多核代替单核能增强决策函数的可解释性并获得更优的性能。文中分析研究了一种基于优化的多核学习的支持向量机,在此基础上结合通用的Web文本分类模型,提出了一种基于多核学习支持向量机的Web分类方法。通过实验测试表明,该方法具有良好的效果,对比一致组合的多核学习方法,所提出的方法具有较高的准确率。
展开更多
关键词
支持向量机
数据挖掘
多核学习
web文本分类
下载PDF
职称材料
基于RBF神经网络的Web文本分类的研究
被引量:
1
14
作者
徐春雨
《电脑知识与技术》
2011年第5期3107-3108,3111,共3页
Web文本分类是采用文本分类技术将Web上的信息进行自动分类,使用户能够快速找到自己想要的资源。文本分类的过程中,将特征提取之后的来自Web的数据分成样本数据集和测试数据集,将样本数据集输入到RBF网络中进行训练,RBF网络经过训练之后...
Web文本分类是采用文本分类技术将Web上的信息进行自动分类,使用户能够快速找到自己想要的资源。文本分类的过程中,将特征提取之后的来自Web的数据分成样本数据集和测试数据集,将样本数据集输入到RBF网络中进行训练,RBF网络经过训练之后,输入测试数据集中的数据进行验证,实验证明,RBF网络取得了较好的分类结果。
展开更多
关键词
web文本分类
RBF网络
高斯函数
梯度下降法
下载PDF
职称材料
Web文本分类中的标签权重自动优化研究
被引量:
4
15
作者
钟旭东
黄章进
+1 位作者
顾乃杰
张旭
《小型微型计算机系统》
CSCD
北大核心
2016年第5期890-894,共5页
Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题...
Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题,本文设计和实现了一种基于差分进化算法的Web文本标签权重系数自动寻优方案,并对差分优化算法进行了改进,以提高其局部搜索能力.实验结果表明,该方案能充分利用样本集的特性并能有效地提高分类的准确率.
展开更多
关键词
web文本分类
自动权重调优
差分进化算法
半结构特征
下载PDF
职称材料
利用表格特征信息的Web文本分类研究与实现
16
作者
桂海霞
《计算机时代》
2008年第12期38-40,共3页
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,...
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。最后通过实验验证了该方法的可行性。
展开更多
关键词
web文本分类
特征信息
领域本体
相似度匹配
下载PDF
职称材料
Web文本分类技术研究
17
作者
王娟
《福建电脑》
2008年第9期107-107,109,共2页
Web文本分类是Web数据挖掘的一个重要研究方向,本文在研究了Web文本分类的特征项权重计算方法的基础上,提出一种改进的TF-IDF特征项权重公式,并通过实验加以验证。
关键词
web文本分类
特征项权重
TF-IDF
下载PDF
职称材料
基于改进BoS的Web文本分类研究
被引量:
1
18
作者
彭俊杰
陈丹敏
《南京邮电大学学报(自然科学版)》
北大核心
2013年第1期79-83,共5页
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度。改进后的文本相似度计算方法为:先根据句子相似度的计算方法...
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度。改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度。经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高。
展开更多
关键词
web文本分类
句子包
向量空间模型
文本
挖掘
下载PDF
职称材料
一种基于改进贝叶斯算法的Web文本分类方法
被引量:
1
19
作者
徐小伟
成亚谊
《现代计算机(中旬刊)》
2012年第4期3-7,共5页
针对基于互补贝叶斯的分类算法在数据倾斜分布时由于过学习现象导致分类准确度不理想的状况,提出一种改进的互补贝叶斯分类算法。通过实验分析数据的倾斜分布对改进后的互补贝叶斯算法的影响,经验证该算法能够在数据倾斜分布时依然能保...
针对基于互补贝叶斯的分类算法在数据倾斜分布时由于过学习现象导致分类准确度不理想的状况,提出一种改进的互补贝叶斯分类算法。通过实验分析数据的倾斜分布对改进后的互补贝叶斯算法的影响,经验证该算法能够在数据倾斜分布时依然能保持较高的分类准确度,并且能随数据倾斜分布表现出较好的鲁棒性。讨论普通文本与Web文本的不同,建立一种带有主题权重的文档向量模型,并分析主题权重对文本算法的影响。实验发现,使用带有主题权重的文档向量模型,能够使得分类准确率相比普通的文本分类提高5%。
展开更多
关键词
朴素贝叶斯
互补贝叶斯
web文本分类
倾斜数据分布
下载PDF
职称材料
维、哈、柯多文种搜索引擎中web文本分类的研究
被引量:
3
20
作者
海丽且木.艾沙
维尼拉.木沙江
《新疆大学学报(自然科学版)》
CAS
2011年第3期362-365,共4页
研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的...
研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的KNN方法在维吾尔文Web文本分类中能够获得较好的分类效果.
展开更多
关键词
web文本分类
KNN算法
特征提取
维吾尔文
下载PDF
职称材料
题名
一种改进的KNN Web文本分类方法
被引量:
9
1
作者
吴春颖
王士同
机构
江南大学信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2008年第11期3275-3277,共3页
基金
国家自然科学基金资助项目(60773206)
文摘
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。
关键词
web文本分类
K最近邻
快速
分类
Keywords
web
text classification
KNN(K-nearest neighbor)
fast classification
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种扩展的基于VSM的Web文本分类算法
被引量:
2
2
作者
饶文碧
柯慧燕
张丽
机构
武汉理工大学计算机学院
出处
《计算机应用与软件》
CSCD
北大核心
2006年第10期113-115,共3页
文摘
随着Internet的飞速发展,Web文本分类研究已经得到人们密切关注,并取得了大量的研究成果。基于向量空间模型(VSM),针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类算法,通过一系列实验,该算法产生的效果明显优于当前其他的分类方法。
关键词
web文本分类
向量空间模型
反馈判定
再学习
Keywords
web
text classification Vector space model Feedback and judge Learning constantly
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种结合层次结构和KNN的Web文本分类方法
被引量:
2
3
作者
吴春颖
王士同
杨林波
机构
江南大学信息工程学院
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第8期1555-1560,共6页
基金
国家自然科学基金项目(60773206)资助
文摘
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果.
关键词
层次结构
KNN
web文本分类
Keywords
hierarchical structure
KNN
web
text classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
无标记训练样本的Web文本分类方法
被引量:
2
4
作者
刘丽珍
宋瀚涛
陆玉昌
机构
首都师范大学信息工程学院
北京理工大学计算机系
清华大学计算机系
出处
《计算机科学》
CSCD
北大核心
2006年第3期200-201,211,共3页
基金
973国家重点基础研究项目(G1998030414)
北京市优秀人才专项经费资助项目(20042D0501604)
文摘
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法 FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记文本,为监督学习找到分类依据,并结合朴素贝叶斯增量学习方式进行分类器的学习。本文进一步用估计分类误差损失的方法平衡选取候选样本,提高了分类准确率,实现了应用范围更加广泛的无标记文本分类学习模型。
关键词
web文本分类
模糊聚类
朴素贝叶斯
Keywords
web
text classification, Fuzzy clustering, Naive Bayes
分类号
TP301.2 [自动化与计算机技术—计算机系统结构]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
Web文本分类技术研究及其实现
被引量:
5
5
作者
饶文碧
柯慧燕
机构
武汉理工大学计算机学院
出处
《计算机技术与发展》
2006年第3期116-118,共3页
文摘
随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模型和算法。通过系列实验表明,该算法具有较高的分类精度和查准率。
关键词
web文本分类
向量空间模型
特征提取
反馈判定
Keywords
web
text classification
vector space model
feature extraction
feedback and judge
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
Web文本分类技术研究现状述评
被引量:
7
6
作者
高淑琴
机构
江苏徐州师范大学图书馆
出处
《图书情报知识》
CSSCI
北大核心
2008年第3期81-86,共6页
文摘
本文在分析国内外Web文本分类方法研究现状的基础上,对新近出现的基于群的分类方法、基于模糊—粗糙集的文本分类模型、多分类器融合的方法、基于RBF网络的文本分类模型、潜在语义分类模型等新方法,以及K—近邻算法和支持向量机的新发展等进行了深入探讨;并对Web文本分类过程的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法进行了分析;最后总结了Web文本分类技术存在着新分类方法不断涌现、传统分类方法的进一步发展、文本、语音和图像分类技术的融合等几种发展趋势,以及存在着分词问题、目前还没有发现"最佳"的特征选择等研究的不足之处。
关键词
web文本分类
数据挖掘
机器学习
Keywords
web
text classification Data mining Machine learning
分类号
G254.11 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于二叉树的多类SVM在Web文本分类中的应用研究
被引量:
2
7
作者
古丽娜孜
孙铁利
机构
东北师范大学计算机学院
伊犁师范学院计算机科学系
出处
《新疆大学学报(自然科学版)》
CAS
2011年第1期100-104,共5页
基金
吉林省科技发展规划项目(20090503)
教育部科技发展中心项目(20090043110010)
文摘
针对现有多分类支持向量机算法所存在的训练时间长、判别速度慢等问题,提出了一种二叉树多类支持向量机算法,该算法能够有效减少支持向量的个数,从而减少训练时间.为了验证算法的有效性,将该算法分别同l-v-r算法和l-v-1算法进行了比较,实验结果表明,提出的算法是有效可行的.
关键词
web文本分类
二叉树
多
分类
SVM
Keywords
web
text classification
binary tree
multi-classification SVM
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种新的基于SVM-KNN的Web文本分类算法
被引量:
4
8
作者
曹建芳
王鸿斌
机构
忻州师范学院计算机系
出处
《计算机与数字工程》
2010年第4期59-61,共3页
基金
忻州师范学院科研基金项目(编号:200904)资助
文摘
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进,收到了良好的分类效果。
关键词
SVM
KNN
web文本分类
机器学习
Keywords
support vector machine
K-nearest neighbor
web
text classification
machine learning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Hadoop的Web文本分类系统设计研究
被引量:
1
9
作者
赵文娟
机构
山西大学商务学院信息学院
出处
《兰州大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第6期892-896,共5页
基金
国家自然科学基金项目(61202311)
山西省高等学校科技创新项目(2014142)
全国教育信息技术研究十二五规划课题项目(146241697)
文摘
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.
关键词
web文本分类
HADOOP
HDFS
MAPREDUCE
Keywords
web
text classification
Hadoop
HDFS
Mapreduce
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web文本分类中特征选择的研究
被引量:
1
10
作者
石芙芙
董祥军
陈修宽
机构
山东轻工业学院信息科学与技术学院
出处
《山东轻工业学院学报(自然科学版)》
CAS
2009年第3期22-24,共3页
基金
山东省自然科学基金(Y2007G25)
山东省优秀中青年科学家奖励基金项目(2006BS01017)
文摘
Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势。
关键词
web文本分类
向量空间模型
特征选择
Keywords
web
text classification
vector space model
feature selection
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于粗糙集与支持向量机的Web文本分类
被引量:
1
11
作者
王娟
机构
漳州师范学院计算机科学与工程系
出处
《漳州师范学院学报(自然科学版)》
2009年第3期37-42,共6页
文摘
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.
关键词
粗糙集
支持向量机
web文本分类
Keywords
Rough Set
Support Vector Machine
web
text classification
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于粗糙集与KNN的Web文本分类的研究
12
作者
桂海霞
孟祥瑞
机构
安徽理工大学经济与管理学院
出处
《安徽理工大学学报(自然科学版)》
CAS
2008年第4期89-92,共4页
文摘
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。
关键词
web文本分类
粗糙集
KNN
属性约简
Keywords
web
text classification
rough set
K nearest neighbor
attributes reduction
分类号
TP399 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于优化的多核学习方法的Web文本分类的研究
13
作者
江伟
潘昊
机构
武汉理工大学计算机科学与技术学院
武汉科技大学城市学院信息工程学部
出处
《计算机技术与发展》
2013年第10期80-82,86,共4页
基金
湖北省自然科学基金(2011CDB257)
文摘
Web文本分类技术是数据挖掘中一个重要研究领域,为了能从海量信息中快速检索遍布网络各处的文档,需要提高Web文本分类技术的性能。多核学习方法是当前机器学习领域的一个热点,可以显著提升分类识别能力和学习推广能力,而核方法是解决高维非线性模式分析的有效方法之一。利用多核代替单核能增强决策函数的可解释性并获得更优的性能。文中分析研究了一种基于优化的多核学习的支持向量机,在此基础上结合通用的Web文本分类模型,提出了一种基于多核学习支持向量机的Web分类方法。通过实验测试表明,该方法具有良好的效果,对比一致组合的多核学习方法,所提出的方法具有较高的准确率。
关键词
支持向量机
数据挖掘
多核学习
web文本分类
Keywords
SVM ~ data mining
multiple kernel learning
web
document classification
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于RBF神经网络的Web文本分类的研究
被引量:
1
14
作者
徐春雨
机构
辽宁省交通高等专科学校信息工程系
出处
《电脑知识与技术》
2011年第5期3107-3108,3111,共3页
文摘
Web文本分类是采用文本分类技术将Web上的信息进行自动分类,使用户能够快速找到自己想要的资源。文本分类的过程中,将特征提取之后的来自Web的数据分成样本数据集和测试数据集,将样本数据集输入到RBF网络中进行训练,RBF网络经过训练之后,输入测试数据集中的数据进行验证,实验证明,RBF网络取得了较好的分类结果。
关键词
web文本分类
RBF网络
高斯函数
梯度下降法
Keywords
web
text classification
RBF network
gauss Function
gradient descent algorithm
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
Web文本分类中的标签权重自动优化研究
被引量:
4
15
作者
钟旭东
黄章进
顾乃杰
张旭
机构
中国科学技术大学计算机科学技术学院
中国科学技术大学安徽省计算与通信软件重点实验室
中国科学技术大学先进技术研究院
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第5期890-894,共5页
基金
安徽省自然科学基金项目(1408085MKL06)资助
高等学校学科创新引智计划项目(B07033)资助
文摘
Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题,本文设计和实现了一种基于差分进化算法的Web文本标签权重系数自动寻优方案,并对差分优化算法进行了改进,以提高其局部搜索能力.实验结果表明,该方案能充分利用样本集的特性并能有效地提高分类的准确率.
关键词
web文本分类
自动权重调优
差分进化算法
半结构特征
Keywords
web
texts classification
automatic weight adjustment
differential evolution (DE)
semi-structure
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
利用表格特征信息的Web文本分类研究与实现
16
作者
桂海霞
机构
安徽理工大学经济与管理工程学院
出处
《计算机时代》
2008年第12期38-40,共3页
文摘
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。最后通过实验验证了该方法的可行性。
关键词
web文本分类
特征信息
领域本体
相似度匹配
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TH162 [机械工程—机械制造及自动化]
下载PDF
职称材料
题名
Web文本分类技术研究
17
作者
王娟
机构
漳州师范学院计算机科学与工程系
出处
《福建电脑》
2008年第9期107-107,109,共2页
文摘
Web文本分类是Web数据挖掘的一个重要研究方向,本文在研究了Web文本分类的特征项权重计算方法的基础上,提出一种改进的TF-IDF特征项权重公式,并通过实验加以验证。
关键词
web文本分类
特征项权重
TF-IDF
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进BoS的Web文本分类研究
被引量:
1
18
作者
彭俊杰
陈丹敏
机构
河南大学计算机与信息工程学院
出处
《南京邮电大学学报(自然科学版)》
北大核心
2013年第1期79-83,共5页
基金
河南省科技攻关项目(102102210489)资助项目
文摘
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度。改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度。经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高。
关键词
web文本分类
句子包
向量空间模型
文本
挖掘
Keywords
web
text classification
bag of sentences
vector space model
text mining
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于改进贝叶斯算法的Web文本分类方法
被引量:
1
19
作者
徐小伟
成亚谊
机构
四川大学计算机学院
出处
《现代计算机(中旬刊)》
2012年第4期3-7,共5页
基金
国家863高科技项目(No.2008AA01Z119)
文摘
针对基于互补贝叶斯的分类算法在数据倾斜分布时由于过学习现象导致分类准确度不理想的状况,提出一种改进的互补贝叶斯分类算法。通过实验分析数据的倾斜分布对改进后的互补贝叶斯算法的影响,经验证该算法能够在数据倾斜分布时依然能保持较高的分类准确度,并且能随数据倾斜分布表现出较好的鲁棒性。讨论普通文本与Web文本的不同,建立一种带有主题权重的文档向量模型,并分析主题权重对文本算法的影响。实验发现,使用带有主题权重的文档向量模型,能够使得分类准确率相比普通的文本分类提高5%。
关键词
朴素贝叶斯
互补贝叶斯
web文本分类
倾斜数据分布
Keywords
Naive Bayes
Complement Naive Bayes
web
Classification
Skewed Distribution
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
维、哈、柯多文种搜索引擎中web文本分类的研究
被引量:
3
20
作者
海丽且木.艾沙
维尼拉.木沙江
机构
新疆大学信息科学与工程学院
出处
《新疆大学学报(自然科学版)》
CAS
2011年第3期362-365,共4页
基金
国家自然科学基金项目(61063022)
新疆维吾尔自治区高校科研计划重点资助项目(XJEDU2006113)
文摘
研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的KNN方法在维吾尔文Web文本分类中能够获得较好的分类效果.
关键词
web文本分类
KNN算法
特征提取
维吾尔文
Keywords
web
document classification
KNN algorithm
feature selection
分类号
TP39 [自动化与计算机技术—计算机应用技术]
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种改进的KNN Web文本分类方法
吴春颖
王士同
《计算机应用研究》
CSCD
北大核心
2008
9
下载PDF
职称材料
2
一种扩展的基于VSM的Web文本分类算法
饶文碧
柯慧燕
张丽
《计算机应用与软件》
CSCD
北大核心
2006
2
下载PDF
职称材料
3
一种结合层次结构和KNN的Web文本分类方法
吴春颖
王士同
杨林波
《小型微型计算机系统》
CSCD
北大核心
2009
2
下载PDF
职称材料
4
无标记训练样本的Web文本分类方法
刘丽珍
宋瀚涛
陆玉昌
《计算机科学》
CSCD
北大核心
2006
2
下载PDF
职称材料
5
Web文本分类技术研究及其实现
饶文碧
柯慧燕
《计算机技术与发展》
2006
5
下载PDF
职称材料
6
Web文本分类技术研究现状述评
高淑琴
《图书情报知识》
CSSCI
北大核心
2008
7
下载PDF
职称材料
7
基于二叉树的多类SVM在Web文本分类中的应用研究
古丽娜孜
孙铁利
《新疆大学学报(自然科学版)》
CAS
2011
2
下载PDF
职称材料
8
一种新的基于SVM-KNN的Web文本分类算法
曹建芳
王鸿斌
《计算机与数字工程》
2010
4
下载PDF
职称材料
9
基于Hadoop的Web文本分类系统设计研究
赵文娟
《兰州大学学报(自然科学版)》
CAS
CSCD
北大核心
2014
1
下载PDF
职称材料
10
Web文本分类中特征选择的研究
石芙芙
董祥军
陈修宽
《山东轻工业学院学报(自然科学版)》
CAS
2009
1
下载PDF
职称材料
11
基于粗糙集与支持向量机的Web文本分类
王娟
《漳州师范学院学报(自然科学版)》
2009
1
下载PDF
职称材料
12
基于粗糙集与KNN的Web文本分类的研究
桂海霞
孟祥瑞
《安徽理工大学学报(自然科学版)》
CAS
2008
0
下载PDF
职称材料
13
基于优化的多核学习方法的Web文本分类的研究
江伟
潘昊
《计算机技术与发展》
2013
0
下载PDF
职称材料
14
基于RBF神经网络的Web文本分类的研究
徐春雨
《电脑知识与技术》
2011
1
下载PDF
职称材料
15
Web文本分类中的标签权重自动优化研究
钟旭东
黄章进
顾乃杰
张旭
《小型微型计算机系统》
CSCD
北大核心
2016
4
下载PDF
职称材料
16
利用表格特征信息的Web文本分类研究与实现
桂海霞
《计算机时代》
2008
0
下载PDF
职称材料
17
Web文本分类技术研究
王娟
《福建电脑》
2008
0
下载PDF
职称材料
18
基于改进BoS的Web文本分类研究
彭俊杰
陈丹敏
《南京邮电大学学报(自然科学版)》
北大核心
2013
1
下载PDF
职称材料
19
一种基于改进贝叶斯算法的Web文本分类方法
徐小伟
成亚谊
《现代计算机(中旬刊)》
2012
1
下载PDF
职称材料
20
维、哈、柯多文种搜索引擎中web文本分类的研究
海丽且木.艾沙
维尼拉.木沙江
《新疆大学学报(自然科学版)》
CAS
2011
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部