-
题名密度Canopy的增强聚类与深度特征的KNN算法
被引量:2
- 1
-
-
作者
沈学利
秦鑫宇
-
机构
辽宁工程技术大学软件学院
中国科学院海西研究院泉州装备制造所
-
出处
《计算机科学与探索》
CSCD
北大核心
2021年第7期1289-1301,共13页
-
基金
国家自然科学基金青年基金(61806186)
机器人与系统国家重点实验室项目(SKLRS-2019-KF-15)
+2 种基金
福建省智能物流产业技术研究院建设项目(2018H2001)
中国科学院率先行动“百人计划”(2017-122)
泉州市科技计划项目(2019C112,2019C011R,2019STS08)。
-
文摘
K最近邻(KNN)算法作为目前使用最广泛的有监督分类算法,在大规模、多维度数据的处理方面往往是低效的,因此提出了一种适用于高维度大数据量处理的改进KNN算法。首先采用深度神经网络(DNN)作为特征提取器并进行降维,以学习到最合适的深度特征表示形式;然后通过密度Canopy算法获取到合适的集群数和初始聚类中心,成为之后K-means聚类的输入参数;最后对学习到的数据进行聚类,并采用近似相似性搜索(ASS)中的Hashing策略按其近似相似度进行集群划分,将结果作为KNN分类器的新训练样本。考虑到要查询的最近邻样本可能落在不同集群之中,导致KNN搜索的性能下降,在聚类时额外采用了一种聚类增强策略,有效缓解了这种情况的发生。使用五个不同的数据集进行对比测试,结果表明:与实验对比的算法相比,该算法不仅能够极大地提高KNN的分类精度,而且有效地提升了算法的分类效率,减少了搜索所需的距离数,对噪声数据还具有良好的鲁棒性。
-
关键词
K最近邻(KNN)
密度canopy
增强聚类
深度神经网络(DNN)
近似相似性搜索(ASS)
-
Keywords
K nearest neighbor(KNN)
density canopy
enhanced clustering
deep neural networks(DNN)
approximate similarity search(ASS)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-