一种优化的k-NN文本分类算法被引量：2

Optimized k-NN Text Categorization Approach

下载PDF

导出

摘要 k-NN是经典的文本分类算法之一,在解决概念漂移问题上尤其具有优势,但其运行速度低下的缺点也非常严重,为此它通常借助特征选择降维方法来避免维度灾难、提高运行效率。但特征选择又会引起信息丢失等问题,不利于分类系统整体性能的提高。从文本向量的稀疏性特点出发,对传统的k-NN算法进行了诸多优化。优化算法简化了欧氏距离分类模型,大大降低了系统的运算开销,使运行效率有了质的提高。此外,优化算法还舍弃了特征选择预处理过程,从而可以完全避免因特征选择而引起的诸多不利问题,其分类性能也远远超出了普通k-NN。实验显示,优化算法在性能与效率双方面都有非常优秀的表现,它为传统的k-NN算法注入了新的活力,并可以在解决概念漂移等问题上发挥更大的作用。 As one of the most classical TC approaches,k-NN is advantaged in tackling concept drift. However, to avoid curse of dimensionality, it has to employ FS（feature selection） method to reduce dimensionality of feature space and improve operation efficiency. But FS process will generally cause information losing and thus has some side-effects on the whole performance of approach. According to sparsity of text vectors, an optimized k-NN approach was presented in paper. This optimized approach greatly simplified euclidean distance model and reduced the operation cost without any information losing. So it can simultaneously achieve much higher both performance and efficiency than general k-NN approach. It then enhanced the advantage of k-NN in managing concept drift.

作者闫鹏郑雪峰朱建勇肖赟泓

机构地区北京科技大学信息工程学院国家信息中心

出处《计算机科学》 CSCD 北大核心 2009年第10期217-221,共5页 Computer Science

关键词文本分类特征选择 k-NN分类法概念漂移 Text categorization,Feature seleetion,k-NN,Coneept drift

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1Widmer G K M. Learning in the presence of concept drift and hidden contexts[J]. Machine Learning,1996,23(1):69-101.
2Fdez-riverola F,Iglesias E L,Me'ndez F D R,et al. Applying lazy learning algorithms to tackle concept drift in spam filtering [J]. Expert Systems with Applications,2007,33:36-48.
3Witten I H, Frank E. Data Mining: Practical Machine Learning Tools and Techniques(2 ed) [M]. Beijing: China Machine Press, 2006.
4Mitchell T M. Machine learning[M]. Beijing: China Machine Press, 2003 : 165-178.
5Yang Y,Pedersen J. A comparative study on feature selection in text categorization[M]. San Francisco: Morgan Kaufrnann Publishers, 1997.
6Delanya S J ,Cunninghamb P. An analysis of case-base editing in a spam filtering system[J]. Computer Science, 2004,3155:128- 141.
7Stone T. Parameterization of naive bayes for spam filtering[R]. Masters comprehensive exam. University of Colorado at Boulder, 2003.
8Tan P, Stenbach M, Kumar V. Introduction to data mining[M]. Beijing: People Posts & Telecom Press, 2006 :13-50.
9Zorkadis V , Karras D A, Panayotou M. Efficient information theoretic strategies for classifier combination: feature extraction and performance evaluation in improving false positives and false negatives for spare e-mail filtering[J]. Neural Networks, 2005, 18: 799-807.
10Delany S J, Cunningham P, Coyle L. An Assessment of case- based reasoning for spare filtering[J]. Artificial Intelligence Review. 2005,24 (3/4) : 359-378.

同被引文献10

1屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
2陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].情报杂志,2007,26(5):34-36. 被引量：3
3白莉媛,黄晖,刘素华,阎秋玲.基于自助平均的朴素贝叶斯文本分类器[J].计算机工程,2007,33(15):190-192. 被引量：5
4Satnam Alag;腾灵灵;冯飞.Collective Intelligence实践[M]北京:清华大学出版社,2010177-357.
5高影繁,马润波,刘玉树.文本分类中影响因素的定量分析[J].计算机工程,2008,34(9):222-224. 被引量：2
6张桂杰,王帅.决策树分类ID3算法研究[J].吉林师范大学学报（自然科学版）,2008,29(3):135-137. 被引量：10
7杨延娇,王治和.基于树桩网络的贝叶斯文本分类算法[J].计算机工程,2009,35(16):201-202. 被引量：4
8曾砺锋.基于Rocchio方法和k均值聚类的支持向量机文本分类方法[J].软件导刊,2008,7(6):37-39. 被引量：4
9朱盈贤.集体智慧在Web2.0程序上的应用研究[J].重庆教育学院学报,2010,23(3):14-16. 被引量：1
10张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2256

引证文献2

1夏火松,刘建.基于VSM的文本分类挖掘算法综述[J].情报探索,2010(9):18-21. 被引量：4
2丁晓霞,王恒玉.B2C图书商城中的集体智慧的应用研究[J].科技视界,2013(15):73-73.

二级引证文献4

1曾静静,李翔,林祥.基于Map-Reduce构建高效文本聚类系统[J].信息安全与通信保密,2011,9(5):98-100.
2刘亚明,马力,舒惠.基于后缀树的文本聚类算法[J].西安邮电学院学报,2012,17(1):62-66. 被引量：4
3刘峰,李煜,吕学强,李卓.查询主题分类方法研究[J].现代图书情报技术,2015(4):10-17. 被引量：4
4张华鑫.基于SVM的文本分类研究[J].情报探索,2015(5):133-135. 被引量：4

1陈鑫.基于文本的分类方法研究[J].电脑开发与应用,2003,16(7):4-5. 被引量：1
2叶施仁,游湘涛,史忠植,李晓黎.高维数据中有效的相似性计算方法[J].计算机研究与发展,2000,37(10):1166-1172. 被引量：4
3陈鑫卿,张永奎,李荣陆.一种协调的科技文献分类方法[J].计算机工程与应用,2003,39(26):91-93. 被引量：3
4袁国良,宋显水.基于WiFi和IMU结合的室内定位方法的研究[J].微型机与应用,2017,36(8):11-14. 被引量：2
5张玉芳,娄娟,李智星,熊忠阳.基于模糊关系的文本分类方法[J].计算机工程,2011,37(16):149-151. 被引量：2
6马立玲,徐发富,王军政.一种基于改进核Fisher的故障诊断方法[J].化工学报,2017,68(3):1041-1048. 被引量：9
7蔺晓栋,刘博,殷旭.数据挖掘在电子阅读精准营销中的应用[J].福建电脑,2015,31(12):125-126.
8魏孝章,豆增发.一种基于信息增益的K-NN改进算法[J].计算机工程与应用,2007,43(19):188-191. 被引量：9
9杜磊,杜星,宋擒豹.一种k-NN分类器k值自动选取方法[J].控制与决策,2013,28(7):1073-1077. 被引量：8
10毛一凡,饶世钧.对修正的K近邻域关联算法的仿真与可信性评估[J].计算机仿真,2004,21(7):11-13. 被引量：2

计算机科学

2009年第10期

浏览历史

内容加载中请稍等...

一种优化的k-NN文本分类算法被引量：2

参考文献11

同被引文献10

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种优化的k-NN文本分类算法 被引量：2

参考文献11

同被引文献10

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种优化的k-NN文本分类算法被引量：2