基于类别平均距离的加权KNN分类算法被引量：12

Weighted KNN Classification Algorithm Based on Mean Distance of Category

下载PDF

导出

摘要本文提出了一种改进的KNN分类算法,利用样本集合中同类别样本点间距离都十分接近的特点辅助KNN算法分类.将待分类样本点的K个最近邻样本点分别求出样本点所属类别的类别平均距离和样本点与待分类样本点距离的差值比,如果大于一个阈值,就将该样本点从K个最近邻的样本点中删除,再用此差值比对不同类别的样本点个数进行加权后执行多数投票,来决定待分类样本点所属的类别.改进后的KNN算法提高了分类的精度,并且时间复杂度与传统KNN算法相当. In this paper, an improved KNN classification algorithm is proposed by using characteristics that the points distributed in the same category of sample collection are in close distance as an assistant to classify KNN algorithm. The way to deal with the k-nearest neighboring sample points is calculating the average distance between categories that the sample points belong to and the differences of unspecified sample points respectively. If the data calculated is greater than a certain threshold, delete this sample point from k-nearest neighboring samples, then determine the categories of unspecified sample points through majority voting. The improved KNN algorithm enhances the precision of classification and maintains the same time complexity as the traditional KNN algorithm.

作者严晓明

机构地区福建师范大学数学与计算机科学学院

出处《计算机系统应用》 2014年第2期128-132,共5页 Computer Systems & Applications

基金福建省教育厅B类基金(JB11036)

关键词类别平均距离 KNN 加权算法 mean distance of category KNN weighted algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1Cover T, Hart P. Nearest neighbor pattern classification.IEEE Trans. on Information Theory, 1967, 13: 21-27.
2Hart P. The condensed nearest neighbor rule. IEEE Trans. on Information Theory, 1968, 14(3): 515-516.
3Devijver P, Kittler J. Pattern Recognition: A Statistical Approach. Englewood Cliffs: PrenticeHall, 1982.
4李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
5Goldberger J, Roweis S, Hinton G, Salakhutdinov R. Neighborhood components analysis. Proc. of the Advances in Neural Information Processing Systems. Vancouver. Canada, MIT Press. 2004.512-520.
6Torresani L, Lee K. Large margin component analysis. Proc. of the Advances in Neural Information Processing Systems. Vancouver. Canada, MIT Press. 2007. 1385-1392.
7崔正斌,汤光明.基于遗传算法和KNN的软件度量属性选择研究[J].计算机工程与应用,2010,46(30):57-60. 被引量：7

二级参考文献21

1王琪.软件质量预测模型中的若干关键问题研究[D].上海:上海交通大学.2006.
2[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
3[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
4[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
5[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
6[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91
7[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142
8[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273
9[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147
10[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516

共引文献103

1管树桃,李红岩,郎许锋,李灿,周作建,胡孔法,战丽彬.基于遗传算法与KNN融合的中医体质量表简化研究[J].世界科学技术-中医药现代化,2023,25(10):3364-3369.
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
6李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
7王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
8屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
9印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
10华北,曹先彬.基于代表样本动态生成的快速文本分类[J].计算机仿真,2007,24(6):322-325.

同被引文献108

1姜楠,周晓沧.基于非线性规划的数据离散化方法及其应用[J].清华大学学报（哲学社会科学版）,2006,21(S1):54-59. 被引量：3
2高慧,苏广川,陈善广.不同情绪状态下汉语语音的声学特征分析[J].航天医学与医学工程,2005,18(5):350-354. 被引量：23
3阎小妍,孟虹,汤明新.综合评价中不同赋权方法的比较探讨[J].中国卫生质量管理,2006,13(4):58-60. 被引量：30
4ZOU Zhi-hong YUN Yi SUN Jing-nan.Entropy method for determination of weight of evaluating indicators in fuzzy synthetic evaluation for water quality assessment[J].Journal of Environmental Sciences,2006,18(5):1020-1023. 被引量：206
5石知机,汪国才,李应江.炉气分析终点控制技术在马钢转炉的应用[J].钢铁,2007,42(4):24-26. 被引量：17
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
7傅亮.基于《军事信息资源分类法》标引经验的自动分类模式构想[J].现代图书情报技术,2007(11):76-79. 被引量：6
8XU L, LI W, ZHANG M, etal. A model of Basic Oxygen Furnace (BOF) end-point prediction based on spectrum information of the furnace flame with Support Vector Machine (SVM) [ J]. Optik-In- teruational Journal for Light and Electron Optics, 2011, 122(7): 594 - 598.
9LIU H, WANG B, XIONG X. Basic oxygen furnace steelmaking end-point prediction based on computer vision and general regression neural network [ J]. Optik-Intemational Journal for Light and Elec- tron Optics, 2014, 125(18): 5241-5248.
10GADELMAWLA E S. A vision system for surface roughness charac- terization using the gray level co-occurrence matrix [ J]. NDT&E In- ternational, 2004, 37(7): 577-588.

引证文献12

1李鹏举,刘辉,王彬,王龙.基于火焰彩色纹理复杂度特征的转炉炼钢吹炼状态识别[J].计算机应用,2015,35(1):283-288. 被引量：10
2田鹏义,许定根,朱仁峰.定向测量与加权算法的信息隐藏技术[J].兵工自动化,2015,34(10):38-41. 被引量：2
3章宦记.改良的kmeans与K近邻算法特性分析[J].电子产品世界,2016,23(1):79-80. 被引量：4
4戴璞微,潘斌,王玉铭,朱峰.一种基于层次分析法的改进KNN算法[J].辽宁石油化工大学学报,2018,38(4):87-92. 被引量：6
5姚彬修,倪建成,于苹苹,曹博,李淋淋.一种基于Canopy和粗糙集的CRS-KNN文本分类算法[J].计算机工程与应用,2017,53(11):172-177. 被引量：9
6张慧,侯开虎,周洲.EM-KNN算法在复烤烟叶分类上的运用[J].软件,2018,39(6):96-100. 被引量：3
7尹欢一,文志诚,马正见.一种基于皮尔森相似度和距离权重的改进KNN算法[J].电脑知识与技术,2019,15(9X):208-210. 被引量：2
8张戈.课程推荐预测模型优化方案及数据离散化算法[J].计算机系统应用,2020,29(4):248-253.
9李田港,叶硕,叶光明,褚钰.基于集成学习的语音情感识别算法研究[J].计算机技术与发展,2020,30(6):82-86. 被引量：3
10陈奡,谢俊杰,赵梅,汤杰.基于机器学习的军事装备知识分类方法[J].指挥信息系统与技术,2020,11(4):34-39. 被引量：3

二级引证文献54

1李鹏举,刘辉,王彬,王龙,夏一丹.基于火焰动态形变特征的转炉炼钢终点判定[J].仪器仪表学报,2015,36(11):2625-2633. 被引量：12
2江帆,刘辉,王彬,孙晓峰.基于火焰图像CNN的转炉炼钢吹炼终点判断方法[J].计算机工程,2016,42(10):277-282. 被引量：11
3徐斌,代科学.美军信息基础设施发展研究[J].兵工自动化,2016,35(12):17-20. 被引量：5
4陈健,靳慧斌,刘文辉,卫康凯.管制员与管制学员模拟雷达管制中注视转移规律研究[J].科学技术与工程,2017,17(3):328-333. 被引量：2
5喻钧,代军,冯磊,田浩帅.基于国密算法的应用层协议隐写系统[J].兵工自动化,2017,36(2):38-40. 被引量：2
6卜翔宇,沈明玉,胡敏,许良凤,徐小兵.D-S证据理论融合多特征的油菜病害识别方法[J].电子测量与仪器学报,2017,31(1):58-65. 被引量：2
7吉书瑶,吕红芳.无线传感器节点多特征组合加权K-means聚类算法[J].上海电机学院学报,2017,20(4):226-231. 被引量：1
8罗特,刘辉,巫乔顺,王彬.基于卷积神经网络的转炉炼钢终点碳含量预测方法[J].信息技术,2018,42(12):142-147. 被引量：6
9陈覃霞,刘盾,梁德翠.粗糙集理论和信息熵的AHP改进方法[J].计算机科学与探索,2018,12(3):484-493. 被引量：14
10陈辉,关凯胜,李嘉兴.基于对象数量的宽度加权聚类kNN算法[J].计算机工程与应用,2018,54(19):1-9. 被引量：1

1王茜,杨正宽.一种基于加权KNN的大数据集下离群检测算法[J].计算机科学,2011,38(10):177-180. 被引量：11
2陈日新,朱明旱.半监督k近邻分类方法[J].中国图象图形学报,2013,18(2):195-200. 被引量：6
3汪伦杰,廖兴宇,潘伟杰,吕健.基于信号均值滤波+k-means+WKNN的Wifi指纹定位算法研究[J].微电子学与计算机,2017,34(3):30-34. 被引量：19
4刘继宇,王强,罗朝晖,宋浩,张绿云.基于粗糙集的加权KNN数据分类算法[J].计算机科学,2015,42(10):281-286. 被引量：7
5康丽萍,孙显,许光銮.加权KNN的图文数据融合分类[J].中国图象图形学报,2016,21(7):854-864. 被引量：10
6刘余霞,吕虹,刘三民.一种基于分类器相似性集成的数据流分类研究[J].计算机科学,2012,39(12):208-210. 被引量：2
7陈云,石松.基于PSO-BP集成的国内外企业信用风险评估[J].计算机应用研究,2014,31(9):2705-2710. 被引量：8
8朱明旱,罗大庸,易励群.一种序列的加权kNN分类方法[J].电子学报,2009,37(11):2584-2588. 被引量：14
9李拴强,冯前进,陈武凡,林亚忠.一种基于图割的交互式脑膜瘤核磁共振图像分割方法[J].南方医科大学学报,2011,31(7):1164-1168. 被引量：4
10陈全,赵文辉,李洁,江雨燕.选择性集成学习算法的研究[J].计算机技术与发展,2010,20(2):87-89. 被引量：2

计算机系统应用

2014年第2期

浏览历史

内容加载中请稍等...

基于类别平均距离的加权KNN分类算法被引量：12

参考文献7

二级参考文献21

共引文献103

同被引文献108

引证文献12

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于类别平均距离的加权KNN分类算法 被引量：12

参考文献7

二级参考文献21

共引文献103

同被引文献108

引证文献12

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于类别平均距离的加权KNN分类算法被引量：12