-
题名基于数据抽样的自动k-means聚类算法
被引量:4
- 1
-
-
作者
罗军锋
洪丹丹
-
机构
西安交通大学信息中心
-
出处
《现代电子技术》
2014年第8期19-21,共3页
-
文摘
为了解决传统k-means算法需要输入k值和在超大规模数据集进行聚类的问题,这里在前人研究基础上,首先在计算距离时引入信息熵,在超大规模数据集采用数据抽样,抽取最优样本数个样本进行聚类,在抽样数据聚类的基础上进行有效性指标的验证,并且获得算法所需要的k值,然后利用引入信息熵的距离公式再在超大数据集上进行聚类。实验表明,该算法解决了传统k-means算法输入k值的缺陷,通过数据抽样在不影响数据聚类质量的前题下自动获取超大数据集聚类的k值。
-
关键词
K-MEANS算法
信息熵
最优样本抽取
有效性指标
-
Keywords
k-means algorithm
information entropy
optimal sample extraction
validity index
-
分类号
TN911-34
[电子电信—通信与信息系统]
TP311
[自动化与计算机技术—计算机软件与理论]
-