用于Web文本分类的快速KNN算法被引量：33

A Fast KNN Algorithm Applied to Web Text Categorization

下载PDF

导出

摘要 KNN算法是一种简单、有效、非参数的web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大，使其在具有大量高维样本的web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN（Fast-k-Nearest-Neighbor）算法。FKNN算法首先选择一个样本作为基准点，并将所有样本按照距基准样本的距离进行排序并建立索引表，然后根据索引表和有序队列查找k个最近邻，减小了查找范围，极大降低了相似度计算量。 The KNN is a simple, valid and non-parameter method applied to WEB text categorization. The traditional KNN has a fatal defect that time of similarity computing is huge. The practicality will he lost when the KNN is applied to WEB text categorization with high dimension and huge samples. In this paper, a method called FKNN （Fast-k -Nearest-Neighbor） is presented which can search the k nearest neighbors quickly. In the method, all samples are sorted based on the similarity between itself and the fiducial sample, k nearest neighbors are searched in the sorted queue and the index is created, then the searching scope is reduced. Subsequently the time of similarity computing is decreased largely.

作者王煜白石王正欧

机构地区河北大学数学与计算机学院天津大学系统工程研究所沧州市城建档案馆

出处《情报学报》 CSSCI 北大核心 2007年第1期60-64,共5页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金资助项目（60275020）.

关键词 KNN 文本分类相似度 KNN, text categorization, similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1杨建良,王永成.基于KNN与自动检索的迭代近邻法在自动分类中的应用[J].情报学报,2004,23(2):137-141. 被引量：18
2Vries A D,Mamoulis N,Nes N,et al.Efficient KNN search on vertically decomposed data//Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data,Madison,Wisconsin.Madison:ACM Press,2002:322-333.
3张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文文本分类的改进KNN算法[J].东北大学学报（自然科学版）,2003,24(3):229-232. 被引量：60
4李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
5Hart P E.The condensed nearest neighbor rule.IEEE Trans.on Information Theory,1968,14(3):515-516.
6Wilson D L.Asymptotic properties of nearest neighbor rules using edited data.IEEE Trans.on Systems,Man and Cybernetics,1972,2(3):408-421.
7Devijver P,Kittler J.Pattern Recognition:A Statistical Approach.Englewood Cliffs:Prentice Hall,1982.
8Kuncheva L I.Fitness functions in editing KNN reference set by genetic algorithms.Pattern Recognition,1997,30(6):1041-1049.
9Zaher Al Aghbari.Array-index:a plug & search K nearest neighbors method for high-dimensional data.Data & Knowledge Engineering,2005,52:333-352.
10王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13

二级参考文献36

1[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
2[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
3[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
4[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
5[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91
6[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142
7[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273
8[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147
9[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516
10[10]D L Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Trans on Systems, Man and Cybernetics, 1972, 2(3): 408～421

共引文献175

1朱丹,吴兹古力.基于机器视觉的农业机械图像识别系统分析[J].农机化研究,2020,42(10):28-31. 被引量：13
2李敏,冯亚丽,吴东林.采摘机器人动态果实目标检测与跟踪技术研究——基于云存储[J].农机化研究,2020,42(9):207-211. 被引量：10
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6孔凡村,胡勤友,陈宇里.基于VDR回放数据的船舶碰撞过程仿真系统的设计[J].中国航海,2004,27(2):25-28. 被引量：9
7张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
9何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
10钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19

同被引文献253

1李锋刚,倪志伟,杨善林,黄玲.案例推理中属性约简及其性能评价[J].清华大学学报（自然科学版）,2006,46(z1):1025-1029. 被引量：12
2李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
3贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报（自然科学版）,2004,30(3):202-204. 被引量：9
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
6赵国涛,何钦铭.基于本体的异构文本分类系统[J].计算机工程,2004,30(21):123-125. 被引量：4
7袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
8徐明,胡守仁.基于事例推理的检索模型研究[J].计算机科学,1993,20(4):32-35. 被引量：32
9胡于进,周小玲,凌玲,王学林.基于向量空间模型的贝叶斯文本分类方法[J].计算机与数字工程,2004,32(6):28-30. 被引量：7
10陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43

引证文献33

1刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
2刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9
3刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3
4刘海峰,王元元,姚泽清.一种基于类别分布信息的中文文本分类模型[J].图书情报工作,2008,52(1):73-76. 被引量：1
5周朴雄.基于神经网络集成的WEB文档分类研究[J].图书情报工作,2008,52(7):110-112. 被引量：4
6周朴雄.基于最优权重的神经网络集成文本分类研究[J].计算机应用研究,2008,25(10):2982-2983.
7吴春颖,王士同.一种改进的KNN Web文本分类方法[J].计算机应用研究,2008,25(11):3275-3277. 被引量：9
8许幸,张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,19(4):206-209. 被引量：6
9吴春颖,王士同,杨林波.一种结合层次结构和KNN的Web文本分类方法[J].小型微型计算机系统,2009,30(8):1555-1560. 被引量：2
10艾英山,张德贤.基于文本和类别信息的KNN文本分类算法[J].计算机与数字工程,2009,37(11):10-12. 被引量：2

二级引证文献164

1于海,陈海雷,左万利.小生境免疫算法在中文文本聚类中的应用[J].广西师范大学学报（自然科学版）,2008,26(1):216-219. 被引量：2
2刘怀亮,张治国,马志辉,赵捧未.基于KNN的中文文本分类反馈学习研究[J].图书情报工作,2008,52(10):101-104. 被引量：3
3薛晓飞,张永奎,任晓东.基于新闻要素的新事件检测方法研究[J].计算机应用,2008,28(11):2975-2977. 被引量：8
4孙挺,耿国华,周明全.一种有效的特征权重计算方法[J].郑州大学学报（理学版）,2008,40(4):48-51. 被引量：9
5李英.基于词性选择的文本预处理方法研究[J].情报科学,2009,27(5):717-719. 被引量：7
6孙巍.一种基于复合文本描述的科学数据特征表示方法[J].现代图书情报技术,2009(5):22-27. 被引量：2
7杨奋强,刘玉贵.文本分类中基于类别概念的特征选择方法[J].计算机系统应用,2009,18(10):93-96. 被引量：4
8刘海峰,赵华,刘守生.一种基于位置的改进中文文本特征选择[J].图书情报工作,2009,53(21):102-105. 被引量：3
9焦莉娟,冯丽萍.Web页面分类中特征提取方法的改进[J].科技广场,2009(9):39-40. 被引量：1
10罗俊.一种基于图的层次多标记文本分类方法[J].计算机应用研究,2010,27(3):909-912. 被引量：1

1刘海博,郗亚辉,王煜.用于文本分类的快速KNN算法[J].河北大学学报（自然科学版）,2008,28(3):322-326. 被引量：5
2田泽,颜松远,徐敬东.基于改进K近邻的垃圾邮件过滤技术[J].计算机工程与应用,2007,43(25):178-181. 被引量：8
3艾英山,张德贤.基于文本和类别信息的KNN文本分类算法[J].计算机与数字工程,2009,37(11):10-12. 被引量：2
4孙荣宗,苗夺谦,卫志华,李文.基于粗糙集的快速KNN文本分类算法[J].计算机工程,2010,36(24):175-177. 被引量：22
5万中钰.大数据样本分析中的快速KNN算法[J].信息系统工程,2017,30(1):153-153. 被引量：1
6厍向阳,薛惠锋,许五弟.基于遗传算法的多维快速聚类算法研究[J].计算机应用研究,2005,22(6):58-60. 被引量：1
7徐兵兵.基于粗集和模糊聚类的协同过滤算法[J].浙江纺织服装职业技术学院学报,2010,9(2):56-60. 被引量：1
8许幸,张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,19(4):206-209. 被引量：6
9王晓云,陈良生.旋转变化的人耳识别研究[J].计算机工程,2011,37(S1):208-210.
10王昌红.图片格式的PDF照样编辑[J].电脑迷,2015,0(8):82-82.

情报学报

2007年第1期

浏览历史

内容加载中请稍等...

用于Web文本分类的快速KNN算法被引量：33

参考文献10

二级参考文献36

共引文献175

同被引文献253

引证文献33

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

用于Web文本分类的快速KNN算法 被引量：33

参考文献10

二级参考文献36

共引文献175

同被引文献253

引证文献33

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

用于Web文本分类的快速KNN算法被引量：33