结合同义向量聚合和特征多类别的KNN分类算法被引量：2

KNN Text Categorization Algorithm Based on Semantic-Vector-Combination and Multiclass of Feature

下载PDF

导出

摘要特征选择是文本分类的关键阶段,其选择过程将影响文本分类速度与精度。χ2统计量能很好地体现词和类别之间的关系,是文本分类领域特征提取阶段的重要方法之一。分析了χ2统计量在文本分类中的应用,发现CHI向量所表达的与各类别关系的特征词无法全面表达出此类的概念含义,依赖于训练集中出现的特征情况,且该向量仅用于特征选择阶段;针对χ2统计量特征词的表达局限及其向量没有得到充分利用的问题,提出结合同义向量聚合和特征多类别的改进KNN分类算法,该方法能够综合考虑特征所表达的含义,且通过特征集多类别矩阵使CHI向量也能在分类阶段起到提高整个算法效率的作用。实验结果与分析表明,该改进算法明显提高了文本分类效率,并且提高了分类的精度。 Feature selection is the key stage in the text categorization, and the processing of it will affect the speed and accuracy of text classification. x2 statistic is a important methods in feature selection of text categorization since it mea- sures the dependence between a term and a class effectively. Nevertheless, we found the feature in the vectors of CHI can not fully express the means of concept and it depends the training text set,and the vectors of CHI are used only for the phase of feature selection after the analysis of the application of x2 statistic in the text categorization. So this paper proposed an improved kNN text categorization algorithm based on Semantic-Vector-Combination and Multi-class of fea- ture, in which the feature considers the means of concept, and the matrix of multiclass of features will improve the effi- ciency of algorithm in the stage of categorization. The results and analysis of experiments show that the efficiency of categorization is improved and its accuracy is also enhanced.

作者林啟锋蒙祖强陈秋莲

机构地区广西大学计算机与电子信息学院

出处《计算机科学》 CSCD 北大核心 2013年第12期55-58,共4页 Computer Science

基金国家自然科学基金项目(61063032) 广西自然科学基金项目(2012GXNSFAA053225)资助

关键词文本分类 χ2统计量特征集多类别矩阵 KNN Text categorization, x2 statistic, Feature-MultiClass-Matrix, K-Nearest neighbor

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1Yang Yi-ming, Liu XirL A re-exam ination of text categorization methods[C]//Proceedings, 22nd Annual Interaitonal ACM SI- GIR Conference on Research and Development in Information Retrieval (SIGIR). 1999:42-49.
2陈雅芳,徐从富.中文文本分类方法研究[D].杭州:浙江大学,2012.
3李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
4印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
5林少波,杨丹.中文文本分类特征提取方法的研究与实现[D].重庆:重庆大学,2011.
6申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
7Yang Y,Pedersen J P. A comparative study on feature selection in text eategorization[C]//Proeeedings of the Fourteenth Inter- national Conference on Machine Learning (ICML ' 97 ). 1997 412-420.
8王爱平,徐晓艳,国玮玮,李仿华.基于改进KNN算法的中文文本分类方法[J].微型机与应用,2011,30(18):8-10. 被引量：7
9Y Gao,P Jin-yan,F Gao. Improved Boosting Algorithm through Weighted K-Nearest Neighbors Classifier[C]//Proceedings, 3rd International Conference on Computer Seience and Information Technology(ICA2SIT). 2010 : 36-40.
10董振东,董强.知网简介EEB/OL].http://www.Keenage-com,2012-7—23.

二级参考文献19

1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
2黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
4JOACHIMS T. Text categorization with support vector ma- chines: learning with many relevant features[C].In Proceed- ing of ECML-98, 10th European Conference on Machine Learning, Berlin : Springer-Ver-lag, 1998 : 137-142.
5曹勇吴顺祥.KNN文本分类算法中的特征选取方法研究.科技信息(科技·教研),2006,(12):26-28.
6Yi-Ming Yang,Jan O Pederson.A Comparative Study on Feature Selection in Text Categorization[C].Proc.of 14th International Conference on Machine Learning (ICML-97),1997,412-420.
7T E Dunning.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics,1993,19(1),61-74.
8M Utiyama and H Isahara.Large-scale text categorization (in Japanese)[C].9th Annual Meeting of the Association (Japan) for Natural Language Processing,2003,385-388.
9B L Lu,K A Wang,M Utiyama and H Isahara.A part-versus-part method for massively parallel training of support vector machines[C],Proc.of International Joint Conference on Neural Networks (IJCNN04),Budapest,Hungary,July 26-29,2004.735-740.
10B L Lu and M Ito.Task Decomposition and Module Combination Based on Class Relations:A Modular Neural Network for Pattern Classification[J].IEEE Trans.Neural Networks,1996,10(5),1244-1256.

共引文献55

1王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
2葛润霞,刘培玉.基于最近邻聚类的INTERNET信息检索系统[J].信息技术与信息化,2007(1):60-62.
3印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
4李兆翠,刘培玉,周洪利.基于贝叶斯方法的客户端邮件过滤器的设计与实现[J].信息技术与信息化,2007(3):90-92. 被引量：1
5李新福.组合降维技术在中文网页分类中的应用[J].计算机工程与应用,2007,43(24):169-171. 被引量：3
6刘海峰,王元元,姚泽清,王倩.一种基于特征聚类的文本分类模型研究[J].情报学报,2008,27(2):224-228. 被引量：2
7刘海峰,王元元,姚泽清.一种基于类别分布信息的中文文本分类模型[J].图书情报工作,2008,52(1):73-76. 被引量：1
8孙蕾,李军怀.一种基于正交法和扩展卡方检验的关联分类算法[J].计算机应用,2008,28(7):1692-1695. 被引量：1
9张元虹,郭剑毅,龚华明,薛征山.基于DF与LSA相结合的降维法的文本分类系统的研究[J].山西电子技术,2008(4):3-4. 被引量：1
10郑雅婷,张鹰.Web文本挖掘技术在网上购物中的应用[J].牡丹江师范学院学报（自然科学版）,2008,34(4):11-13.

同被引文献19

1李石华,王金亮,毕艳,陈姚,朱妙园,杨帅,朱佳.遥感图像分类方法研究综述[J].国土资源遥感,2005,17(2):1-6. 被引量：97
2赵萍,傅云飞,郑刘根,冯学智,B.Satyanarayana.基于分类回归树分析的遥感影像土地利用/覆被分类研究[J].遥感学报,2005,9(6):708-716. 被引量：128
3曹宝,秦其明,马海建,邱云峰.面向对象方法在SPOT5遥感图像分类中的应用——以北京市海淀区为例[J].地理与地理信息科学,2006,22(2):46-49. 被引量：111
4JohnR.Jensen,著.陈晓玲,等,译.遥感数字影像处理导论[M].北京:机械工业出版社,2007.
5MURAI H, OMARTU S. Remote sensing image analysis using a neural network and knowledge based processing [J]. International Journal of Remote Sensing, 1997, 18 (4): 811 -828.
6仇江啸,王效科.基于高分辨率遥感影像的面向对象城市土地覆被分类比较研究[J].遥感技术与应用,2010,25(5):653-661. 被引量：35
7王耀南.小波神经网络的遥感图象分类[J].中国图象图形学报（A辑）,1999,4(5):368-371. 被引量：23
8史泽鹏,马友华,王玉佳,马中文,黄勤,黄艳艳.遥感影像土地利用/覆盖分类方法研究进展[J].中国农学通报,2012,28(12):273-278. 被引量：50
9黄少滨,李建,刘刚.一种基于自适应最近邻的聚类融合方法[J].计算机工程与应用,2012,48(19):157-162. 被引量：2
10胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23

引证文献2

1张娟娟,张钰洋,马新明.基于遥感图像提取小麦种植分布信息的算法优化研究[J].河南农业大学学报,2014,48(4):496-500.
2张兵,蒙祖强,沈亮亮,李虹利.基于局部密度和纯度的自适应k近邻算法[J].广西科学院学报,2017,33(1):19-24. 被引量：1

二级引证文献1

1刘娜,生龙.基于局部密度和相似度的自适应SNN算法[J].电脑知识与技术,2021,17(6):6-9. 被引量：1

1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
2王侠,韩永印.本体构建研究[J].电脑与电信,2007(11):54-55. 被引量：1
3物联网[J].保密科学技术,2015(10).
4耿瑞焕,陈改霞.基于频度和类内精确度的x^2统计改进研究[J].电子技术与软件工程,2015(4):181-181.
5王娟.文本分类中特征提取方法的比较改进[J].兰州工业学院学报,2013,20(5):22-24. 被引量：1
6王倩倩,段震,张燕平.基于交叉覆盖算法的文本分类[J].计算机技术与发展,2007,17(6):113-115. 被引量：5
7李桂芳,杨增良.一种基于KNN算法的文本降维方法研究[J].山东师范大学学报（自然科学版）,2010,25(4):25-27.
8邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
9杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
10侯艳钗,沈西挺.文本分类中基于改进的词语权重算法的研究[J].微计算机信息,2011,27(6):211-213. 被引量：1

计算机科学

2013年第12期

浏览历史

内容加载中请稍等...

结合同义向量聚合和特征多类别的KNN分类算法被引量：2

参考文献11

二级参考文献19

共引文献55

同被引文献19

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

结合同义向量聚合和特征多类别的KNN分类算法 被引量：2

参考文献11

二级参考文献19

共引文献55

同被引文献19

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

结合同义向量聚合和特征多类别的KNN分类算法被引量：2