基于粗糙集与KNN的Web文本分类的研究

Research of Web Text Classification Based on Rough Set and KNN

下载PDF

导出

摘要为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。 In order to quickly and precisely classify and search useful information from huge information database, in the paper a kind of mixed model of web text classification based on rough set and KNN was introduced. By using the theory of attributes reduction of rough set, number of vector dimensions in text classification process was reduced. A kind of simplified algorithm for attributes reduction based on distinct matrix was used. In the process of feature selection, method of mutual information was used. Experiments with the mixed model were conducted. The results compared with traditional KNN method show that the mixed algorithm is feasible.

作者桂海霞孟祥瑞

机构地区安徽理工大学经济与管理学院

出处《安徽理工大学学报（自然科学版）》 CAS 2008年第4期89-92,共4页 Journal of Anhui University of Science and Technology:Natural Science

关键词 WEB文本分类粗糙集 KNN 属性约简 web text classification rough set K nearest neighbor attributes reduction

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2李波,李新军.一种基于粗糙集和支持向量机的混合分类算法[J].计算机应用,2004,24(3):65-67. 被引量：9
3周水庚,关佶红,俞红奇,胡运发.基于Ngram信息的中文文档分类研究[J].中文信息学报,2001,15(1):34-39. 被引量：23
4孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36

二级参考文献22

1张学工.统计学习理论的本质[M].北京：清华大学出版社,2001..
2James Auen.Natural Language Understandin[M].The Benjamin/Cummings Publishing Company, 1991-05.
3Apte C,Damerau F J,Weiss S M.Automated Learning of Decision Rules for Text Categorization[J].ACM Trans On Inform Syst,12(3): 233-251.
4Salton G,Buckley B.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management, 1998 ; 24(5 ) :513 -523.
5Larkey L S.A Patent Search and Classification System[C].In:proceedings of DL-99,4th ACM Conference on Digital Libraries Berkeley,CA,1999:179-187.
6Salton G,Lesk M E.Computer Evaluation of Indexing and Text Processing[J].Association for Computing Machinery, 1968 ; 15 ( 1 ) : 8-36.
7黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
8张月杰,姚天顺.基于特征相关性的汉语文本自动分类模型的研究[J].小型微型计算机系统,1998,19(8):49-55. 被引量：21
9何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
10邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45

共引文献119

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
3张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
4张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
5王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
6何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
7陈晓云,胡运发.规则加权的文本关联分类[J].中文信息学报,2005,19(4):52-59. 被引量：4
8赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
9解本政.TCBPL:一种高效文本分类新方法[J].计算机工程,2005,31(23):6-7. 被引量：2
10李小红,许少华.基于模糊向量和BP网络的Web文本自动分类方法[J].福建电脑,2006,22(2):94-95. 被引量：2

1唐彬,李龙澍.关于基于分明矩阵的属性约简算法的探讨[J].计算机工程与应用,2004,40(14):184-186. 被引量：5
2吕静,陈炼.基于分明矩阵方法的属性约简方法[J].微计算机信息,2008,24(6):236-238. 被引量：14
3曾纪汉,丁银花.属性约简的分明矩阵方法程序实现[J].计算机与现代化,2004(12):6-8. 被引量：1
4陈健.一种基于粗糙集的属性约简算法改进[J].福建商业高等专科学校学报,2007(1):90-92.
5侯利娟,史长琼.基于分明矩阵的属性约简启发式算法[J].计算机工程与设计,2007,28(18):4466-4468. 被引量：4
6裴小兵,王元珍.一种Rough集相对约简的计算方法[J].计算机科学,2006,33(2):185-187. 被引量：3
7武友新,李文晶,钟子岳.基于属性值集合链的粗糙集快速属性约简算法[J].计算机工程与设计,2016,37(11):2967-2970.
8徐分,蒋芸,王勇,马廷斌.基于粗糙集和信息增益的属性约简改进方法[J].计算机工程与设计,2009,30(24):5698-5700. 被引量：4
9秦奕青,杨炳儒,徐章艳.基于Skowron分明矩阵的有效属性约简算法[J].北京科技大学学报,2009,31(3):398-404. 被引量：6
10裴小兵,王元珍.一种规则学习算法的改进[J].小型微型计算机系统,2005,26(11):1986-1987. 被引量：1

安徽理工大学学报（自然科学版）

2008年第4期

浏览历史

内容加载中请稍等...

基于粗糙集与KNN的Web文本分类的研究

参考文献4

二级参考文献22

共引文献119

相关作者

相关机构

相关主题

浏览历史