期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于Rough集潜在语义索引的Web文档分类 被引量:7
1
作者 何明 冯博琴 傅向华 《计算机工程》 CAS CSCD 北大核心 2004年第13期3-5,共3页
Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类 方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约... Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类 方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类 规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。 展开更多
关键词 粗糙集 潜在语义索引 web文档分类 信息过滤 信息检索
下载PDF
基于关联规则的Web文档分类 被引量:8
2
作者 马光志 张生庭 《计算机工程与设计》 CSCD 北大核心 2005年第9期2515-2518,共4页
在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来。有鉴于此,论文提出一种基于关联规则的Web文档分类方法。该方法采用事务概念,主要考虑两... 在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来。有鉴于此,论文提出一种基于关联规则的Web文档分类方法。该方法采用事务概念,主要考虑两方面的问题:①在文档训练集中发现最优的词条关联规则;②用这些规则构建一个Web文档分类器。试验表明该分类器性能良好,训练速度快,产生的规则易于被人理解,而且容易更新和调整。 展开更多
关键词 web文档分类 文本分类 关联规则
下载PDF
Web文档分类方法的比较与分析
3
作者 汪志圣 李龙澍 《滁州学院学报》 2007年第6期33-35,共3页
对Web文档进行分类可以较好地解决网上信息杂乱的现象,而且方便用户准确定位所需的信息,有效地提高了信息服务的质量。目前对Web文档进行分类的技术包括基于文档内容的分类方法和基于文档性质的分类方法。本文在对Web文档分类技术进行... 对Web文档进行分类可以较好地解决网上信息杂乱的现象,而且方便用户准确定位所需的信息,有效地提高了信息服务的质量。目前对Web文档进行分类的技术包括基于文档内容的分类方法和基于文档性质的分类方法。本文在对Web文档分类技术进行总结的基础上分析和比较了两类方法。 展开更多
关键词 数据挖掘 web文档分类
下载PDF
负关联规则在Web文档分类中的研究
4
作者 石芙芙 董祥军 陈修宽 《信息化纵横》 2009年第13期1-3,10,共4页
对Web文档进行分类可以较好地解决网上信息杂乱的现象,介绍了Web文档分类的相关知识以及关键技术,并对目前的分类方法进行了总结,对Web文档分类中关联规则挖掘研究现状和主要技术进行了论述,指出了负关联规则在Web文档分类中的发展趋势。
关键词 数据挖掘 web文档分类技术 负关联规则
下载PDF
Web文档分类中TFIDF特征选择算法的改进 被引量:4
5
作者 段国仑 谢钧 +1 位作者 郭蕾蕾 王晓莹 《计算机技术与发展》 2019年第5期49-53,共5页
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠... 随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约。针对存在的不足进行改进,提出了类内分布因子以及类间分布因子。基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词。通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F_1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果。 展开更多
关键词 web文档分类 特征选择 TFIDF算法 SVM
下载PDF
一种融合多种信息的Web文档分类方法 被引量:1
6
作者 段国仑 谢钧 +1 位作者 郭蕾蕾 王晓莹 《信息技术与网络安全》 2018年第6期76-79,共4页
当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息。为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本... 当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息。为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本分类方法。鉴于不同信息对于分类的贡献不尽相同,采用遗传算法给各种信息设置合适的权重,最终采用支持向量机对Web文档进行分类。实验结果表明,与仅使用正文文本进行分类的方法相比,所提出的融合多种信息的方法能有效提高分类精度。 展开更多
关键词 web文档分类 信息融合 遗传算法 支持向量机
下载PDF
基于网站结构挖掘的Web文档自动分类 被引量:2
7
作者 谢振亮 何丕廉 +1 位作者 陈霞 孟昭鹏 《计算机应用》 CSCD 北大核心 2003年第7期37-39,共3页
对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式... 对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。 展开更多
关键词 结构挖掘 web文档自动分类 分类模式 扩展网页
下载PDF
基于新的关键词提取方法的快速文本分类系统 被引量:17
8
作者 罗杰 陈力 +1 位作者 夏德麟 王凯 《计算机应用研究》 CSCD 北大核心 2006年第4期32-34,共3页
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以... 关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将W eb文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。 展开更多
关键词 计算机应用 中文信息处理 关键词提取 web文档分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部