-
题名大数据下的快速KNN分类算法
被引量:29
- 1
-
-
作者
苏毅娟
邓振云
程德波
宗鸣
-
机构
广西师范学院计算机与信息工程学院
广西师范大学广西多源信息挖掘与安全重点实验室和广西区域多源信息集成与智能处理协同创新中心
-
出处
《计算机应用研究》
CSCD
北大核心
2016年第4期1003-1006,1023,共5页
-
基金
国家自然科学基金资助项目(61450001
61263035
+8 种基金
61573270)
国家"863"计划资助项目(2012AA011005)
国家"973"计划资助项目(2013CB329404)
广西自然科学基金资助项目(2012GXNSFGA060004
2014jj AA70175
2015GXNSFAA139306
2015GXNSFCB13901)
广西八桂创新团队
广西百人计划和广西高校科学技术研究重点项目(2013ZD04)
-
文摘
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。
-
关键词
K最近邻
测试复杂度
大数据
分块
聚类中心
-
Keywords
K-nearest neighbor(KNN)
testing complex
big data
block
cluster centers
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-