-
题名基于Rough集潜在语义索引的Web文档分类
被引量:7
- 1
-
-
作者
何明
冯博琴
傅向华
-
机构
西安交通大学计算机科学与技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第13期3-5,共3页
-
文摘
Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类 方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类 规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。
-
关键词
粗糙集
潜在语义索引
web文档分类
信息过滤
信息检索
-
Keywords
s Rough set
Latent semantic indexing
web document classification
Information filtering
Information retrieval
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于关联规则的Web文档分类
被引量:8
- 2
-
-
作者
马光志
张生庭
-
机构
华中科技大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2005年第9期2515-2518,共4页
-
文摘
在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来。有鉴于此,论文提出一种基于关联规则的Web文档分类方法。该方法采用事务概念,主要考虑两方面的问题:①在文档训练集中发现最优的词条关联规则;②用这些规则构建一个Web文档分类器。试验表明该分类器性能良好,训练速度快,产生的规则易于被人理解,而且容易更新和调整。
-
关键词
web文档分类
文本分类
关联规则
-
Keywords
web mining
text classification
association rules
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Web文档分类方法的比较与分析
- 3
-
-
作者
汪志圣
李龙澍
-
机构
安徽大学计算机学院
-
出处
《滁州学院学报》
2007年第6期33-35,共3页
-
基金
滁州学院自然科学基金项目(KJ2007B124)
-
文摘
对Web文档进行分类可以较好地解决网上信息杂乱的现象,而且方便用户准确定位所需的信息,有效地提高了信息服务的质量。目前对Web文档进行分类的技术包括基于文档内容的分类方法和基于文档性质的分类方法。本文在对Web文档分类技术进行总结的基础上分析和比较了两类方法。
-
关键词
数据挖掘
web文档分类
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名负关联规则在Web文档分类中的研究
- 4
-
-
作者
石芙芙
董祥军
陈修宽
-
机构
山东轻工业学院信息科学与技术学院
-
出处
《信息化纵横》
2009年第13期1-3,10,共4页
-
基金
山东省自然科学基金(Y2007G25)
山东省优秀中青年科学家奖励基金项目(2006BS01017)
-
文摘
对Web文档进行分类可以较好地解决网上信息杂乱的现象,介绍了Web文档分类的相关知识以及关键技术,并对目前的分类方法进行了总结,对Web文档分类中关联规则挖掘研究现状和主要技术进行了论述,指出了负关联规则在Web文档分类中的发展趋势。
-
关键词
数据挖掘
web文档分类技术
负关联规则
-
Keywords
data mining
web classification method
negative association rules
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web文档分类中TFIDF特征选择算法的改进
被引量:4
- 5
-
-
作者
段国仑
谢钧
郭蕾蕾
王晓莹
-
机构
陆军工程大学指挥控制工程学院
陆军工程大学通信工程学院
-
出处
《计算机技术与发展》
2019年第5期49-53,共5页
-
基金
国家自然科学基金(61101202)
-
文摘
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约。针对存在的不足进行改进,提出了类内分布因子以及类间分布因子。基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词。通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F_1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果。
-
关键词
web文档分类
特征选择
TFIDF算法
SVM
-
Keywords
web document classification
feature selection
TFIDF algorithm
SVM
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种融合多种信息的Web文档分类方法
被引量:1
- 6
-
-
作者
段国仑
谢钧
郭蕾蕾
王晓莹
-
机构
陆军工程大学指挥控制工程学院
陆军工程大学通信工程学院
-
出处
《信息技术与网络安全》
2018年第6期76-79,共4页
-
文摘
当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息。为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本分类方法。鉴于不同信息对于分类的贡献不尽相同,采用遗传算法给各种信息设置合适的权重,最终采用支持向量机对Web文档进行分类。实验结果表明,与仅使用正文文本进行分类的方法相比,所提出的融合多种信息的方法能有效提高分类精度。
-
关键词
web文档分类
信息融合
遗传算法
支持向量机
-
Keywords
web document classification
information fusion
genetic algorithm
support vector machine
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网站结构挖掘的Web文档自动分类
被引量:2
- 7
-
-
作者
谢振亮
何丕廉
陈霞
孟昭鹏
-
机构
天津大学计算机科学与技术系
-
出处
《计算机应用》
CSCD
北大核心
2003年第7期37-39,共3页
-
基金
天津市科技发展计划项目 (0 2 3 1 0 0 51 1 )
-
文摘
对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。
-
关键词
结构挖掘
web文档自动分类
分类模式
扩展网页
-
Keywords
structure mining
automatic web page categorization
classification pattern
extended page
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于新的关键词提取方法的快速文本分类系统
被引量:17
- 8
-
-
作者
罗杰
陈力
夏德麟
王凯
-
机构
武汉大学电子信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2006年第4期32-34,共3页
-
基金
国家自然科学基金资助项目(90204008)
-
文摘
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将W eb文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。
-
关键词
计算机应用
中文信息处理
关键词提取
web文档分类
-
Keywords
Computer Application
Nature Language Processing
Keyword Extraction
web Text Classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-