一种Web文档在线自适应分类新方法被引量：1

A New Method of Online Adaptive Classification of Web Pages

下载PDF

导出

摘要 Web文档自动分类是Web挖掘中的重要研究内容。文档向量空间模型 (VSM)是实现文档自动分类的基础 ,但如何排除冗余属性并降低向量空间的维数是一个难点。文中运用粗集理论对由样本文档集合构成的信息系统进行数据泛化 ,并求取文档的最优规约属性集 ,大大降低了文档的特征空间的维数 ,减少了冗余属性对文档分类的干扰 ,提高了分类效率。运用FuzzyARTMAP(adaptiveresonancetheorymapping)神经网络 ,利用其自适应分类和增量学习的优良特性。 The web documents classification is an important research content of web mining. Document vector space model is the foundation of automatic classification of documents, while it is difficult to eliminate redundant attributes and reduce the dimension of the vector space. The Rough Sets Theory is applied to generalize the information system comprised by document samples set, and to compute the best reducing properties set. So dimension of document feature space is reduced greatly, and disturbance to document classification is decreased too, which improve the efficiency of classification. In addition, using the advantage of adaptive classification and incremental learning of Fuzzy ARTMAP neural network, the online adaptive classification of web document is achieved.

作者黎昱黄席樾周欣刘涛

机构地区重庆大学自动化学院

出处《重庆大学学报（自然科学版）》 EI CAS CSCD 北大核心 2003年第7期47-51,共5页 Journal of Chongqing University

关键词网页分类粗集属性规约在线自适应分类 WEB文档 web pages classification rough sets attributes reduction online adaptive classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
2KONT KANEN P, MYLLYMAKI P, SILANDER T, et al.BYDA: software for Bayesian classification and feature selection[A]. AGRAWAL R, STOLORZ P E, PIATETSKY- SHAPIRO G, eds. Processdings of the 4th International Conference on Knowledge Discovery and Data Mining (KDD'98) [C]. Menlo Park: AAAI Press, 1998,254-258.
3YANG Y. Expert network: Effective and efficient learning from human decisions in text categorization and retrieval[ A]. Proc .Seventeenth International ACM SIGIR Conference on Research and Developmentin Information Retrieval[ C ]. Dublin, 1994.
4APTE C, DAMERAU F, WEISS S. Automated learning of decision rules for text categorization[ J]. ACM Transactions on Information System ,1994, 12 (3) : 233 - 251.
5SALTON G, WONG YAND C S. A Vector space model for automatic indexing[ J]. Communications of ADC, 1975, 18(11) : 613-620.
6SALTON G. Introduction to Modem Information Retrieval [M]. New York : Mc Graw - Hill Book Company, 1983.
7PAWLAK Z. Rough Sets - Theoretical Aspects of Reasoning About Data[M]. Kluwer Academic Pub, 1991.
8HAN J, FU Y. Dynamic Generation and Refinement of Concept Hierarchies for Knowledge Discovery in Databases[A].Proc. AAAI'94 Workshop on Knowledge Discovery in Database (KDD'94) [C]. 1994,157 -168.
9CARPENTER G A. Fuzzy ARTMAP: A Neural Network Architecture for Incremental Supervised Learning of Analog Multidimensional Maps [ J ]. IEEE Trans. Neural networks,1992,3 (5) :698 -713.

二级参考文献1

1李晓黎,史忠植.用数据采掘方法获取汉语词性标注规则[J].计算机研究与发展,2000,37(12):1409-1414. 被引量：10

共引文献107

1王世卫,李爱国.报税欺诈检测研究[J].仪器仪表学报,2005,26(z1):900-901.
2童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
3郑松峰,徐维朴,刘维湘,郑南宁.基于无监督聚类的约简支撑向量机[J].计算机工程与应用,2004,40(14):74-76. 被引量：1
4贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
5江宝林,申展,张川,葛家翔,胡运发.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32. 被引量：9
6张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
7包骏杰,马燕.一种基于互联网智能元搜索引擎的研究[J].计算机科学,2004,31(6):103-105. 被引量：1
8黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
9王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2
10梁春燕,郭力,夏诏杰,杨章远.网络搜索引擎的性能优化策略和相关技术[J].计算机工程与应用,2004,40(36):179-182. 被引量：5

同被引文献3

1孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
2王珏,苗夺谦.Analysis on Attribute Reduction Strategies of Rough Set[J].Journal of Computer Science & Technology,1998,13(2):189-192. 被引量：47
3单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76

引证文献1

1张东娜,刘博.一个基于加权和组合降维的web文本分类系统[J].电脑知识与技术,2008(3):1234-1235.

1杨志敏,吴斌,舒然.基于大数据处理技术的电力通信网检修工作分析方法[J].电信科学,2015,31(11):162-169. 被引量：10
2邱长波,李瑞录,黄薇.人口信息系统数据挖掘的数据预处理研究[J].情报科学,2004,22(12):1487-1489. 被引量：3
3邹涛,孙赛.文档自动分类技术及其实现[J].计算机系统应用,1999,8(4):37-38. 被引量：8
4刘红泉.自动分类技术研究[J].江西图书馆学刊,2005,35(1):72-73. 被引量：2
5黎东英,王应明.基于粗集理论的一种数据泛化方法[J].微机发展,2005,15(7):1-3.
6谢振亮,何丕廉,陈霞,孟昭鹏.基于网站结构挖掘的Web文档自动分类[J].计算机应用,2003,23(7):37-39. 被引量：2
7邢玉娟,谭萍,曹晓丽.基于多约简Fisher-VSM和SVM的文本情感分类[J].计算机应用与软件,2016,33(9):301-305. 被引量：1
8唐姗,李丽萍,谭文安.自适应重配置软件系统的运行时监控方法研究[J].计算机科学,2013,40(11):191-196. 被引量：3
9付优.基于粗糙径向基函数的瓦斯涌出量预测[J].太原大学学报,2010,11(3):120-123.
10郝文宁,冯波,陈刚,靳大尉,赵水宁.基于领域本体的文档向量空间模型构建[J].计算机应用研究,2013,30(3):764-767. 被引量：8

重庆大学学报（自然科学版）

2003年第7期

浏览历史

内容加载中请稍等...

一种Web文档在线自适应分类新方法被引量：1

参考文献9

二级参考文献1

共引文献107

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种Web文档在线自适应分类新方法 被引量：1

参考文献9

二级参考文献1

共引文献107

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种Web文档在线自适应分类新方法被引量：1