通过确定邻近区域改进KNN文本分类被引量：1

Improving KNN for Text Classification by Adjacent Domain Determination

下载PDF

导出

摘要文本分类技术已经成为处理和组织文本信息的关键技术之一。KNN算法是文本分类中一种实用的方法。它在每次分类的过程中都要计算测试集中未标记文本与训练集合中所有样本的相似度(距离),然后通过排序来找到K个最近邻样本,耗时较长,不利于Web上实时在线分类等应用。提出了一种确定邻近区域来加快搜寻K个最近邻的方法。试验证明,改进后的KNN算法较经典KNN算法在分类过程中速度有所提升,并且当训练文本数量增加时,在分类时间上表现相对更稳定。

作者汪成亮张硕果

机构地区重庆大学计算机学院重庆大学电气工程学院

出处《计算机系统应用》 2009年第11期56-59,共4页 Computer Systems & Applications

基金重庆市自然科学基金(CSTC)(2007BB6118)

关键词文本分类 k一最近邻邻近区域相似度 KNN算法

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1吕震宇,赵爽,林永民.kNN在文本分类中的应用研究[J].计算机与现代化,2008(11):69-72. 被引量：3
2刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008,44(10):135-137. 被引量：23
3徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
4牛强,王志晓,陈岱,夏士雄.基于KNN的Web文本分类方法的研究[J].计算机应用与软件,2007,24(10):210-211. 被引量：8
5陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
6罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
7张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文文本分类的改进KNN算法[J].东北大学学报（自然科学版）,2003,24(3):229-232. 被引量：60

二级参考文献39

1赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
2柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
6Yang Y, Liu X. A re-examination of text categorization methods [ C ]//The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM Press, 1999.
7Sebastiani F.Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34( 1 ) : 1-47.
8ladenic D M,Grobelnik M.Feature selection for unbalanced class distribution and Naive Bayes[C]//Proc of the 16th Int'l Conf on Machine Learning( ICML' 99 ).San Francisco : Morgan Kaufmann Publishers, 1999 . 258-267.
9Yang Y,Pedersen J P.A comparative study on feature selection in text categorization[C]//Proc of the 14th Int'l Conf on Machine Learning(ICML' 97 ), 1997.412-420.
10LIBSVM-A library for support vector machines[EB/OL].http://www. csie.ntu.edu.tw/-cjlin/libsvm/.

共引文献232

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
3朱丹,吴兹古力.基于机器视觉的农业机械图像识别系统分析[J].农机化研究,2020,42(10):28-31. 被引量：13
4李敏,冯亚丽,吴东林.采摘机器人动态果实目标检测与跟踪技术研究——基于云存储[J].农机化研究,2020,42(9):207-211. 被引量：10
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6孔凡村,胡勤友,陈宇里.基于VDR回放数据的船舶碰撞过程仿真系统的设计[J].中国航海,2004,27(2):25-28. 被引量：9
7张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
8何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
9钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
10李燕琴.一种生态旅游者的识别与细分方法——以北京市百花山自然保护区为例[J].北京大学学报（自然科学版）,2005,41(6):906-917. 被引量：8

同被引文献8

1Eamonn JK, Michael JP. An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback. Proc. of the 4th International Conference on Knowledge Discovery and Data. 1998: 239-241.
2Wang W, Li X, Wang C. River water level forecast based on spatio-temporal series model and RBF neural network. 2nd International Conference on Information Science and Engineering. 2010: 6891.
3Homik K, Stinchcombe M, White H. Universal approximation using feedforward networks with non-sigmoid hidden layer activation functions. International Joint Conference on Neural Networks (IJCNN), 1989:613.
4师瑞峰,周一民.基于数据挖掘的人口数据预测模型综述[J].计算机工程与应用,2008,44(9):1-6. 被引量：6
5马骊溟,徐毅,李泽湘.基于动态网格划分的散乱点k邻近快速搜索算法[J].计算机工程,2008,34(8):10-11. 被引量：10
6王建军,徐宗本.多元多项式函数的三层前向神经网络逼近方法[J].计算机学报,2009,32(12):2482-2488. 被引量：20
7王婷婷,钱晓东.时间序列的非线性趋势预测及应用综述[J].计算机工程与设计,2010,31(7):1545-1549. 被引量：17
8刘卫宁,王鹏,孙棣华,解佳.基于改进BP神经网络的道路交通事故预测[J].计算机系统应用,2010,19(10):177-181. 被引量：14

引证文献1

1付园,高强.基于时空相关性的数字电影放映场次预测[J].计算机系统应用,2012,21(3):154-159.

1邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
2杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
3刘海峰,姚泽清,刘守生,苏展.基于聚类降维的改进KNN文本分类[J].微计算机信息,2010,26(3):18-20. 被引量：2
4路永和,何新宇.基于维度索引表的改进KNN分类算法[J].情报理论与实践,2014,37(5):102-106. 被引量：3
5古丽娜孜,孙铁利,胡西旦,伊力亚尔,库瓦特拜克.一种基于改进KNN的哈萨克语文本分类[J].东北师大学报（自然科学版）,2014,46(2):63-68. 被引量：4
6苟和平,景永霞,冯百明,李勇.一种基于粗糙集的改进KNN文本分类算法[J].科学技术与工程,2012,20(20):4926-4929. 被引量：3
7刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3
8卢惠林.基于加权Bayes分类器的流数据在线分类算法研究[J].计算机科学,2014,41(5):227-229. 被引量：3
9杨文柱,卢素魁,王思乐.基于多类支持向量机的棉花异性纤维分类方法[J].计算机应用,2011,31(12):3446-3448. 被引量：5
10孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36

计算机系统应用

2009年第11期

浏览历史

内容加载中请稍等...

通过确定邻近区域改进KNN文本分类被引量：1

参考文献7

二级参考文献39

共引文献232

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

通过确定邻近区域改进KNN文本分类 被引量：1

参考文献7

二级参考文献39

共引文献232

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

通过确定邻近区域改进KNN文本分类被引量：1