一种文本多级分类方法研究

Study of Multi-level Text Classification Based on Combination of Rule and KNN Algorithm

下载PDF

导出

摘要针对目前基于规则和基于统计的文本分类方法存在的不足,提出了一种新颖的基于规则和K-近邻分类相融合的文本分类方法。首先,对描述文本特征的传统向量空间模型进行了扩充,给出了具体的扩展模型。然后,基于扩展模型提出了一种规则的表示方法,并为每一条规则赋予了一个强弱系数,根据这个系数可以对识别的文本按级别排序。最后,通过设定一个阀值,将级别低于阀值的文本过滤掉。该方法可有效地排除被K-近邻分类误识别的那些文本,从而在一定程度上提高了分类的正确率。通过小数据集测试实验结果表明,该方法是有效的、可行的。 There were two methods of text classification, one was based on rules, another was on statistic.The two methods had merit and defect.Aiming at their respective shortcomings, an effective method of text classification was proposed that it included assembled KNN and rule method.The conventional VSM description was expanded in the text, and a detailed description of the extended VSM was shown.Based on it, an expression method of rules is presented.By assigning a coefficient it indicates the accuracy and sorting the results, the documents were filtered,the coefficients are less than that of the given threshold.Hence, the inaccuracy documents identified by KNN method were excluded, and the precision and the recall were improved in a certain extent.Experimental results show that the method is effective and feasible.

作者肖红刘淑华

机构地区大庆石油学院计算机与信息技术学院大庆油田有限责任公司第二采油厂

出处《长江大学学报（自科版）（上旬）》 CAS 2008年第2期92-95,共4页 JOURNAL OF YANGTZE UNIVERSITY (NATURAL SCIENCE EDITION) SCI ＆ ENG

基金黑龙江省自然科学基金资助项目(11521013)

关键词文本分类 K-近邻分类算法向量空间模型 text classification KNN algorithm vector space model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
2余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：99
4吴栋,滕育平.中文信息检索引擎中的分词与检索技术[J].计算机应用,2004,24(7):128-131. 被引量：48

二级参考文献19

1MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
2Salton G,Lesk M E.Computer Evaluation of Index and Text Processing. Association for Computing Machinery,1968,15(1).
3Maron M E. On Relevance,Probabilistic Indexing and Information Retrieval. Journal of the ACM,1960,7(3).
4Lewis D D. Feature Selection and Feature Extraction for Text Categorization. In Proceedings of Speech and Natural Language Workshop. Defense Advanced Research Projects Agency,Morgan Kaufmann,1992-02:212-217.
5Yang Yiming,Liu Xin. A Re-examination of Text Categorization Methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR),1999:42-49.
6Salton G, Wong A, Yang CS. On the specification of term values in automatic indexing[ J]. Journal of Documentation, 1973, 29 (4):351 - 372.
7姚天顺朱靖波.自然语言理解[M](第2版)[M].北京:清华大学出版社,2002..
8李东张湘辉.汉语分词在中文软件中的广泛应用[EB/OL].http://www.microsoft.com/ch,.
9Belkin N J, Croft W B. Information filtering and information retrieval: two sides of the same coin[J]. Communications of ACM,1994,35(12):29-38.
10Lam W, Ruiz M, Srinivasan P. Automatic text categorization and its application to text retrieval[J]. IEEE Trans on Knowledge and Data Engineering, 1999,11 (6): 865-879.

共引文献167

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
3毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
4叶施仁,严水歌,杨长春.新浪微博搜索排序方法研究[J].常州大学学报（自然科学版）,2013,25(3):71-75.
5常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
6田俊华.基于自然语言提问的自动答疑系统设计[J].现代远程教育研究,2005,17(1):48-51. 被引量：10
7邵晶,党海峰,白慧先,郑庆华.OPAC与网络教育资源共享集成方案的研究[J].现代图书情报技术,2005(5):64-67. 被引量：3
8邵晶,党海峰,白慧先,郑庆华.OPAC资源与网络教育资源共享集成关键技术研究[J].大学图书馆学报,2005,23(3):41-44. 被引量：3
9苏新宁,王振义.从CSSCI看大学出版社在社会科学研究领域的学术影响[J].大学图书馆学报,2005,23(3):70-73. 被引量：8
10谢春发.中文智能搜索引擎的研究与探讨[J].河北广播电视大学学报,2005,10(4):17-19. 被引量：2

1许燕青.基于平均距离的K-近邻分类改进算法[J].电脑编程技巧与维护,2010(24):41-42.
2乔玉龙,潘正祥,孙圣和.一种改进的快速k-近邻分类算法[J].电子学报,2005,33(6):1146-1149. 被引量：25
3伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
4石鑫鑫,胡学钢,林耀进.融合互近邻和可信度的K-近邻分类算法[J].合肥工业大学学报（自然科学版）,2014,37(9):1055-1058. 被引量：6
5林令娟,刘希玉.基于微粒群优化的快速K-近邻分类算法[J].山东科学,2009,22(1):13-16. 被引量：2
6王建伟,张璞.K-近邻分类算法的研究及实现[J].黑龙江科技信息,2009(17):45-45. 被引量：1
7周靖.基于C#最近邻算法的教学系统分析与设计[J].实验科学与技术,2016,14(1):98-101.
8张智,顾韵华.基于K-近邻算法的Deep Web数据源的自动分类[J].信息技术,2011,35(5):108-111.
9林耀进,李进金,陈锦坤,马周明.融合邻域信息的k-近邻分类[J].智能系统学报,2014,9(2):240-243. 被引量：3
10李伟,程利涛.一种改进的快速K-近邻分类方法[J].现代计算机（中旬刊）,2015(12):14-17. 被引量：5

长江大学学报（自科版）（上旬）

2008年第2期

浏览历史

内容加载中请稍等...

一种文本多级分类方法研究

参考文献4

二级参考文献19

共引文献167

相关作者

相关机构

相关主题

浏览历史