基于聚类和密度裁剪的改进KNN算法被引量：6

An Improved KNN Method for Reducing the Amount of Training Samples Based on Clustering and Density

下载PDF

导出

摘要经典KNN算法在处理高维数据或样本数繁多的样本集时需要巨大的计算量,这使其在实际应用的过程中存在着一定的局限性;提出一种基于聚类和密度裁剪的改进KNN算法。在训练阶段,首先根据样本密度对整个训练集进行裁剪,然后将裁剪好的训练集进行聚类处理,得到若干个密度比较均匀的类簇并将其转化为超球。在测试阶段,采用两种方法,第一种是找出距离待测样本最近的k个超球,然后将这个k个超球内的训练样本作为新的训练样本集,在这个新的训练样本集上使用经典KNN算法得到待测样本的类别;第二种则是找出距离待测样本最近的1个超球,然后根据该超球的类别得出待测样本的类别。实验采用8个UCI样本集进行测试,实验结果表明,该算法同经典KNN相比具有良好的性能,是一种有效的分类方法。 Classical KNN method has some limitations in the practical application process because of its large computational demands when using it to deal with high-dimensional data set including lots of sam-ples. An improved KNN method is proposed for reducing the amount of training samples based on cluste-ring and density. In the training stage, first, reduce the amount of training samples based on the samples’ density, then, cluster the training samples and turn the class clusters into hyper-spheres. In the testing stage, two methods are designed, the first is to find the testing samplers k nearest hyper-spheres, and rec-ognize all the training samples in the k nearest hyper-spheres as the new trainset, then use the classical KNN method to get the testing sample’s class in this new training set. The second is to find the testing samplers nearest hyper-sphere, and get the testing samplers class according to the hyper-sphere＇s class. Eight UCI datasets are used to do the experiments. The results show that the improved KNN method is effective and has good performance compared with classical KNN method.

作者王艳飞郝卫杰范支菊张三顺张公敬

机构地区青岛大学数据科学与软件工程学院青岛大学计算机科学技术学院

出处《青岛大学学报（自然科学版）》 CAS 2017年第2期62-68,共7页 Journal of Qingdao University(Natural Science Edition)

关键词聚类密度样本裁剪 KNN算法 clustering density reducing the amount of training samples KNN method

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报（自然科学版）,2002,42(6):727-730. 被引量：168
2钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):142-144. 被引量：27
3李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
4梁俊杰,王长磊.利用分区和距离实现高维空间快速KNN查询[J].计算机研究与发展,2007,44(11):1980-1985. 被引量：4
5刘辉,应培培.一种改进的KNN文本分类算法[J].信息安全与技术,2011,2(7):25-27. 被引量：2
6张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：73
7张孝飞,黄河燕.一种采用聚类技术改进的KNN文本分类方法[J].模式识别与人工智能,2009,22(6):936-940. 被引量：33
8孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36

二级参考文献65

1董道国,刘振中,薛向阳.VA-Trie:一种用于近似k近邻查询的高维索引结构[J].计算机研究与发展,2005,42(12):2213-2218. 被引量：10
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
3巩军,刘鲁.一种k-NN文本分类器的改进方法[J].情报学报,2007,26(1):56-59. 被引量：10
4王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
5刘红岩.可扩展的快速分类算法的研究与实现[M].北京:清华大学出版社,2000..
6(加)HanJ KamberM 范明盂小峰等译.数据挖掘概念与技术m[M].北京：机械工业出版社,2001.223-262.
7..http://lib, slat. Cmu. Edu/datasets/places. Data,.
8Lewis D D. Naive Bayes at Forty: The Independence Assumption in Information Retrieval // Proc of the lOth European Conference on Machine Learning. Chemnitz, Germany, 1998 : 4 - 15.
9Cohen W W, Singer Y. Context-Sensitive Learning Methods for Text Categorization// Proc of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Zurich, Switzerland, 1996 : 307 - 315.
10Joaehims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features//Proc of the 10th European Conference on Machine Learning. Chemnitz, Germany, 1998: 137 - 142.

共引文献415

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：14
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4王晓燕,程志梅.数据挖掘技术在高校学生管理中的应用[J].电脑知识与技术（过刊）,2007(18):1725-1726.
5赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
6黎新伍.医学图像体分割的特征聚类算法[J].清华大学学报（自然科学版）,2008,48(S2):1790-1793. 被引量：1
7王洪云.加强教学档案管理为提高教学质量服务[J].黑龙江档案,2006(1):28-28.
8董云龙 ,何友 ,谢曦鹏 .网络入侵检测技术研究[J].海军航空工程学院学报,2004,19(4):491-494.
9朱倩.略论高校教学管理中数据挖掘技术的应用[J].硅谷,2009,2(4). 被引量：6
10李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13

同被引文献42

1刘向东,沙秋夫,刘勇奎,段晓东.基于粒子群优化算法的聚类分析[J].计算机工程,2006,32(6):201-202. 被引量：26
2田新梅,吴秀清,刘莉.大样本情况下的一种新的SVM迭代算法[J].计算机工程,2007,33(8):205-207. 被引量：4
3冯一宁,邵元海,陈静,王来生,邓乃扬.基于层次聚类的大样本加权支持向量机[J].计算机工程与设计,2009,30(1):175-178. 被引量：5
4刘明,周水生,吴慧.一种新的混合核函数支持向量机[J].计算机应用,2009,29(B12):167-168. 被引量：14
5ALFI Alireza.具有适应性突变和惯性权重的粒子群优化(PSO)算法及其在动态系统参数估计中的应用(英文)[J].自动化学报,2011,37(5):541-549. 被引量：45
6张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
7苟和平,景永霞,冯百明,李勇.一种基于粗糙集的改进KNN文本分类算法[J].科学技术与工程,2012,20(20):4926-4929. 被引量：3
8徐晨,曹辉,赵晓.基于SVM的说话人识别参数选择方法[J].计算机工程,2012,38(21):175-177. 被引量：5
9陈中杰,蒋刚,蔡勇.基于SVM一对一多分类算法的二次细分法研究[J].传感器与微系统,2013,32(4):44-47. 被引量：19
10程勖,李文辉,刘裕斌.基于模拟谐振子算法的服务调度技术[J].大连海事大学学报,2013,39(2):78-81. 被引量：4

引证文献6

1范支菊,张公敬,杨嘉东.基于密度裁剪的SVM分类算法[J].青岛大学学报（自然科学版）,2018,31(3):46-51. 被引量：2
2景永霞,苟和平,孙为.基于TextRank的KNN文本分类算法研究[J].洛阳理工学院学报（自然科学版）,2019,29(3):66-69.
3程勖,高雍政,郭芳.基于M-distance算法思想的优化加权KNN算法[J].大连理工大学学报,2021,61(6):645-651. 被引量：1
4唐瀛,闫仁武.基于改进SVM算法的车牌识别研究[J].现代计算机,2021,27(30):88-93. 被引量：5
5潘峰,苏浩辀,段艳,闵云霄.多核CPU环境下的并行KNN算法设计[J].计算机时代,2023(7):34-37.
6唐瀛,闫仁武.基于密度和粒子群的SVM算法研究[J].计算机与数字工程,2023,51(10):2257-2262.

二级引证文献8

1刘园园,李劲华,赵俊莉.面向高考咨询问答系统的问句分类研究[J].青岛大学学报（自然科学版）,2021,34(1):18-24. 被引量：1
2梁丽华,赵凯,唐琳,王冰,孙玉冰,房家琦.基于模板匹配的身份证号码识别方法研究[J].电脑与电信,2022(4):78-81.
3林玉容.基于机器学习的车牌识别方案研究[J].机电技术,2022(4):32-35. 被引量：2
4李灏天,刘晓宙,何爱军.基于机器学习和超声成像的缺陷识别与分析[J].南京大学学报（自然科学版）,2022,58(4):670-679. 被引量：1
5于晓,李朝.基于多特征融合的红外图像分类研究[J].红外,2022,43(10):32-42.
6曾娟,王昊,许博,张洪昌.基于强弱感知设计的驾驶员危险感知状态识别模型研究[J].汽车工程,2024,46(6):995-1005.
7周伟,牛誉蓉.基于K-近邻与FOA改进聚类的数据异常分析模型及用电行为分析[J].成都工业学院学报,2024,27(5):11-16.
8唐文静,姜琳,马治波.基于车牌识别的停车场智能收费系统[J].人工智能与机器人研究,2022,11(2):184-191.

1黄建理,杜金燃,谢家全,秦科.一种基于改进KNN的大数据离群点检测算法[J].计算机与现代化,2017(5):67-70. 被引量：4
2吴蔚沁.基于机器学习算法的建筑能耗监测数据异常识别及修复方法[J].建设科技,2017(9):60-62. 被引量：15
3姚彬修,倪建成,于苹苹,曹博,李淋淋.一种基于Canopy和粗糙集的CRS-KNN文本分类算法[J].计算机工程与应用,2017,53(11):172-177. 被引量：9
4Congcong Li,Peng Gong,Jie Wang,Zhiliang Zhu,Gregory S. Biging,Cui Yuan,Tengyun Hu,Haiying Zhang,Qi Wang,Xuecao Li,Xiaoxuan Liu,Yidi Xu,Jing Guo,Caixia Liu,Kwame O. Hackman,Meinan Zhang,Yuqi Cheng,Le Yu,Jun Yang,Huabing Huang,Nicholas Clinton.The first all-season sample set for mapping global land cover with Landsat-8 data[J].Science Bulletin,2017,62(7):508-515. 被引量：25
5冯宇平,安雪美.融合加速稳健特征的子空间人脸识别方法[J].科学技术与工程,2017,17(6):220-225. 被引量：2

青岛大学学报（自然科学版）

2017年第2期

浏览历史

内容加载中请稍等...

基于聚类和密度裁剪的改进KNN算法被引量：6

参考文献8

二级参考文献65

共引文献415

同被引文献42

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于聚类和密度裁剪的改进KNN算法 被引量：6

参考文献8

二级参考文献65

共引文献415

同被引文献42

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于聚类和密度裁剪的改进KNN算法被引量：6