-
题名一种大数据环境下的新聚类算法
被引量:24
- 1
-
-
作者
李斌
王劲松
黄玮
-
机构
天津理工大学计算机与通信工程学院
计算机病毒防治技术国家工程实验室
天津理工大学智能计算及软件新技术天津市重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2015年第12期247-250,共4页
-
基金
国家自然科学基金项目(61272450)
天津市科技支撑项目(14ZCZDGX00072)资助
-
文摘
提出了一种新的聚类算法NGKCA,该算法克服了经典聚类算法检测率和稳定性的不足,适用于解决大数据环境下的聚类问题。NGKCA聚类算法包括4个阶段:首先利用谱聚类NJW算法对大数据集进行列降维和数据归一化处理,其次引入对初始值不敏感的粒子群算法对数据集进行行降维从而选出临时的聚类中心集,接着通过全局Kmeans算法对最佳聚类中心集进行聚类以获取聚类中心点,最后使用粒子群算法对聚类中心点进行调整进而获取最终的聚类划分。在一些著名的机器学习数据集和国际标准的网络安全数据集KDDCUP99上进行实验,结果表明:提出的算法比谱聚类、Kmeans、粒子群、全局Kmeans等常见算法具有更好的稳定性和更高的检测率,与全局Kmeans算法相比具有更优的时间复杂度。
-
关键词
全局kmeans
谱聚类
粒子群优化
聚类
kddcup99
-
Keywords
global kmeans,spectral clustering,pso,clustering,kddcup99
-
分类号
TP393.0
[自动化与计算机技术—计算机应用技术]
-