基于属性值相关距离的KNN算法的改进研究被引量：28

Improved the KNN Algorithm Based on Related to the Distance of Attribute Value

下载PDF

导出

摘要样本距离机制的定义直接影响到KNN算法的准确性和效率。针对传统KNN算法在距离的定义及类别决定上的不足,提出了利用属性值对类别的重要性进行改进的KNN算法(FCD-KNN)。首先定义两个样本间的距离为属性值的相关距离,此距离有效度量了样本间的相似度。再根据此距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。理论分析及仿真实验结果表明,FCD-KNN算法较传统KNN及距离加权-KNN的分类准确性要高。 Definition of the samples will directly impact on the accuracy and the efficiency of KNN. In view of disadvantages to the traditional KNN algorithm on the distance the definition and categories of decision, proposed the use of attribute importance to category to improve KNN algorithm （FCD-KNN）. At first, a distance of the two samples is defined as the correlation distance of the same attribute values. The distance can effectively measure the similarity degree of the two sample. Secondly, According to this distance selects the k nearest neighbors. Finally, the category of the test sample is decided by the average distance and the numbers on the respective category. The theoretical analysis and the simulation experiment show that compared with KNN and-KNN, raised the rate of accuracy enormously in classification.

作者肖辉辉段艳明

机构地区河池学院

出处《计算机科学》 CSCD 北大核心 2013年第11A期157-159,187,共4页 Computer Science

基金广西教育厅科研基金项目(201106LX577 201106LX604) 国家自然科学基金项目(40971234) 河池学院青年科研项目(2012B-N005 2012B-N007)资助

关键词 KNN算法相关距离属性值样本距离机制 KNN algorithm, Correlation distances, Attribute, Sample distance mechanism

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1王增民,王开珏.基于熵权的K最临近算法改进[J].计算机工程与应用,2009,45(30):129-131. 被引量：18
2周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
3陆微微,刘晶.一种提高K-近邻算法效率的新算法[J].计算机工程与应用,2008,44(4):163-165. 被引量：22
4周靖,刘晋胜.一种采用类相关度优化距离的KNN算法[J].微计算机应用,2010,31(11):7-12. 被引量：15
5杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
6Wu Xin-dong,Kumar V, Quinlan J R, et al. Top 10 Algorithms in Data Mining[J]. Knowledge and Information Systems, 2008, 14(1) : 1-37.
7童先群,周忠眉.基于属性值信息熵的KNN改进算法[J].计算机工程与应用,2010,46(3):115-117. 被引量：32
8周靖,刘晋胜.基于特征熵相关度差异的KNN算法[J].计算机工程,2011,37(17):146-148. 被引量：5

二级参考文献59

1陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：52
2王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
3王煜,张明,王正欧,白石.用于文本分类的改进KNN算法[J].计算机工程与应用,2007,43(13):159-162. 被引量：6
4魏孝章,豆增发.一种基于信息增益的K-NN改进算法[J].计算机工程与应用,2007,43(19):188-191. 被引量：9
5Dasarathv B V.Nearest neighbor(NN) norms NN pattern classification techniques[M].Las Alarnitos,California:IEEE Computer Society Press, 1991.
6Joachins T.Text categorization with support vector machines learning with many relevant features[C]//Proceedings of ECML-98 10th European Conference on Machine Learning.Berline:Springer-Verlag, 1998: 137-142.
7Cover T M,Hart P E.Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1968, IT- 13 : 21-27.
8D'Amato C,Malerba D,Esposito F,et al.Extending the K-Nearest Neighbour classification algorithm to symbolic objects [EB/OL]. ( 2006 ).http://www.di.uniba.it-malerba/.
9Pawlak Z.Rough sets[J].International Journal of Computer Information Science, 1982, 11 (5) : 341-356.
10Martinez A M,Kak A C.PCA versus LDA[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(2):228-233.

共引文献108

1王占丰,冯径,翁年凤.语义环境下Web服务注册和发现的研究[J].计算机工程与科学,2006,28(z2):168-168.
2何元娇,张国英.基于本体语义的简单向量距离分类方法[J].北京石油化工学院学报,2007,15(3):13-17. 被引量：2
3陈东方,王华,顾进广.基于Web本体挖掘的语义目录研究[J].计算机工程与设计,2008,29(12):3182-3184.
4徐和祥,王述云,胡运发.基于本体的Deep Web查询接口分类[J].小型微型计算机系统,2008,29(10):1889-1892. 被引量：3
5何亮,宋擒豹,沈钧毅,海振.一种新的组合k-近邻预测方法[J].西安交通大学学报,2009,43(4):5-9. 被引量：4
6葛继科,邱玉辉.一种基于本体概念语义距离的服务相似度度量方法[J].计算机科学,2009,36(6):181-184. 被引量：6
7张澎,王鲁达,唐日成.电子商务中的数据挖掘[J].湘南学院学报,2009,30(2):85-88. 被引量：3
8马乐,翁智生,罗军.一种基于SVM的网页层次分类算法[J].北京师范大学学报（自然科学版）,2009,45(3):247-249.
9何亮,宋擒豹,海振,沈钧毅.基于Bagging的组合k-NN预测模型与方法[J].控制与决策,2010,25(1):48-52. 被引量：4
10童先群,周忠眉.基于属性值信息熵的KNN改进算法[J].计算机工程与应用,2010,46(3):115-117. 被引量：32

同被引文献232

1王钰,赵晓艳,杨杏丽,李济洪.基于K折交叉验证Beta分布的AUC度量的置信区间[J].系统科学与数学,2020,40(9):1564-1577. 被引量：14
2张涛,莫修文.基于交会图与模糊聚类算法的复杂岩性识别[J].吉林大学学报（地球科学版）,2007,37(S1):109-113. 被引量：35
3陈曦,李翔晨,李炜,楼宗元.基于信息熵的谣言信息度量方法[J].华中科技大学学报（自然科学版）,2013,41(S1):413-417. 被引量：5
4李霞.基于Mean-Shift算法的目标跟踪技术研究[J].自动化与仪器仪表,2016(4):20-22. 被引量：1
5刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
6陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：52
7王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
8张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：99
9张英,苏宏业,褚健.基于模糊最小二乘支持向量机的软测量建模[J].控制与决策,2005,20(6):621-624. 被引量：27
10任建峰,郭雷,李刚.多类支持向量机的自然图像分类[J].西北工业大学学报,2005,23(3):295-298. 被引量：7

引证文献28

1孙政,潘丰.基于密度的稀疏最小二乘支持向量机[J].江南大学学报（自然科学版）,2014,13(5):531-535.
2党宏社,白梅,张娜.基于ReliefF特征加权和KNN的自然图像分类方法[J].电视技术,2015,39(19):10-13. 被引量：2
3曾俊杰,王晓明,杨晓欢.基于局部保持的KNN算法[J].西华大学学报（自然科学版）,2015,34(6):58-63.
4黄成祥,杨毅恒.地质类比法计算未占用矿山可供价格[J].北京信息科技大学学报（自然科学版）,2016,31(1):58-62.
5曹赛男,张乾荣,刘斌,周仲礼.KNN改进算法在圈定地球化学元素异常区域上的应用[J].中国科技论文,2016,11(15):1782-1785. 被引量：1
6杨帅华,张清华.粗糙集近似集的KNN文本分类算法研究[J].小型微型计算机系统,2017,38(10):2192-2196. 被引量：20
7李诗语,王峰,曹彬,梅琪,肖飞.基于KNN算法的手写数字识别[J].电脑知识与技术,2017,13(9):175-177. 被引量：9
8包晓安,陈磊,万微祥,张俊为,桂江生.基于局部稀疏表示的模板匹配跟踪算法研究[J].浙江理工大学学报（自然科学版）,2018,39(1):82-89.
9路敦利,宁芊,臧军.基于BP神经网络决策的KNN改进算法[J].计算机应用,2017,37(A02):65-67. 被引量：19
10艾海提.伊敏,木特力甫.马木提,阿力木江.艾沙,吐尔根.依不拉音,库尔班.吾布力.高维统计特征融合的维吾尔文脱机手写签名识别[J].计算机科学与探索,2018,12(2):308-317. 被引量：2

二级引证文献144

1侯光文,刘青青.网络权力与创新绩效:基于企业数字化能力视角[J].科学学研究,2022,40(6):1143-1152. 被引量：17
2杨晶晶.《中国青年报》在青年网络舆论中的引导力——以“朋克养生”为例[J].传媒论坛,2022,5(9):8-11.
3于宏.倍他乐克治疗左室舒张功能障碍性心力衰竭疗效观察[J].天津医科大学学报,2000,6(1):116-117. 被引量：2
4程琦,刘蓉霞,柯新利.基于神经网络的农地景观游憩功能评价及空间异质性研究[J].国土资源科技管理,2018,35(4):61-70. 被引量：1
5李亭葳,刘新,白王梓松,李梦磊.基于FC-KNN的C语言程序自动评分算法[J].计算机应用与软件,2018,35(9):225-229. 被引量：4
6常婵,郭艳涛,花卫华,高艳芳.基于SVM的含约束地球化学单元素异常圈定方法及应用[J].地质学刊,2018,42(3):452-458.
7汪雅琴,夏春蕾,戴曙光.混合样本训练方式的手写数字识别[J].电子测量技术,2018,41(18):52-56. 被引量：3
8翟继强,马文亭,肖亚军.Apriori-KNN算法的警报过滤机制的入侵检测系统[J].小型微型计算机系统,2018,39(12):2632-2635. 被引量：12
9陈覃霞,刘盾,梁德翠.粗糙集理论和信息熵的AHP改进方法[J].计算机科学与探索,2018,12(3):484-493. 被引量：15
10陈辉,关凯胜,李嘉兴.基于对象数量的宽度加权聚类kNN算法[J].计算机工程与应用,2018,54(19):1-9. 被引量：1

1魏永超.基于相关系数与相关距离的证据合成方法[J].计算技术与自动化,2017,36(1):32-35. 被引量：2
2童先群,周忠眉.基于属性值信息熵的KNN改进算法[J].计算机工程与应用,2010,46(3):115-117. 被引量：32
3周鹏,潘雪增,平玲绨.相关距离在循环语句并行化重构中的应用[J].计算机工程与应用,1998,34(8):54-56.
4李彦.网络视频著作权刍议[J].今传媒,2007,15(12):75-76. 被引量：2
5宋乐,白静.说话人识别中改进特征提取算法的研究[J].计算机工程与设计,2014,35(5):1772-1775. 被引量：3
6张景云.改进的堆的枚举算法的研究[J].计算机应用与软件,2012,29(7):264-265. 被引量：1
7付跃文,梁加红,李猛,刘全平.基于多智能体粒子群的快速碰撞检测算法研究[J].系统仿真学报,2013,25(8):1876-1880. 被引量：8
8何爱香,朱云华,安凯.一种SRBCT亚型识别与特征基因选取方法[J].计算机工程与应用,2007,43(3):223-226. 被引量：1
9顾德,李吉.基于深度信息的指尖追踪及手势识别[J].计算机工程与应用,2015,51(7):165-168.
10苏毅娟,邓振云,程德波,宗鸣.大数据下的快速KNN分类算法[J].计算机应用研究,2016,33(4):1003-1006. 被引量：29

计算机科学

2013年第11A期

浏览历史

内容加载中请稍等...

基于属性值相关距离的KNN算法的改进研究被引量：28

参考文献8

二级参考文献59

共引文献108

同被引文献232

引证文献28

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

基于属性值相关距离的KNN算法的改进研究 被引量：28

参考文献8

二级参考文献59

共引文献108

同被引文献232

引证文献28

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

基于属性值相关距离的KNN算法的改进研究被引量：28