摘要
在当今的网络中存在三种形式的数据流,连续型数据流,标称型数据流和混合属性数据流。由于目前在数据挖掘中大部分算法只能处理一种属性的数据流,而处理混合属性数据流的算法却很少,但在数据挖掘的实际应用中常常需要将不同属性的数据流进行相互区分。事实上研究人员在区分不同属性数据流时,首先是将不同属性的流进行聚类,其次是对不同属性的流进行识别。在查阅有了有关资料和参考文献后,本文提出了一种对混合属性数据流的聚类算法,该算法的聚类思想是:1提取混合属性数据流的分类属性,2使用k-近邻算法计算数据流分类属性的相似性,3根据k-近邻算法对数据流相似度的计算结果,使用k-均值聚类算法对混合属性数据流进行聚类,4给出聚类的算法。
In today's network there are three forms of data flow,i.e.,continuous data streams,data streams and mixed nominal type attribute data stream.Most algorithms in data mining can only process one form rather than mixed forms of data flow,but practically in the applications of data mining,it often requires to distinguish different attributes of the data stream.So the authors proposed a mixed attribute data stream clustering algorithm,and the clustering idea of the algorithm is:①to extract mixed attribute data classification property stream,②to use k-nearest neighbor algorithm for data stream classification attributes similarities,③ according to k-nearest neighbor algorithm,to calculate the similarity of the results of the data stream using k-means clustering algorithm for mixed attribute data stream poly class,④to give the clustering algorithm.
出处
《计算技术与自动化》
2016年第2期34-37,共4页
Computing Technology and Automation
基金
北京航空航天大学软件开发环境国家重点实验室开放基金资助项目(SKLSDE-2013KF)
关键词
混合属性数据
相似性
K-近邻算法
K-均值聚类
分类属性
mixed attribute data
similarity
k-nearest neighbor
k-means clustering
classification properties