目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于...目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于K个邻居节点时,将其定义为代表点,代表点D临域内所有邻居节点与该代表点之间的平均欧氏距离即为该代表点的相关密度RD,所有的代表点组成代表点集合;将所有在代表点的D临域内的节点定义为能被代表的节点,并将其进行存储;既不是代表点、又不能被其它节点所代表的节点,将其定义为噪音节点;其次,对代表点集合进行聚类,对于给定的密度标准α,如果两个代表点满足密度相关,即两个代表点的相关密度分别乘以密度标准α后同时大于等于两者之间的欧氏距离,则将其划分到同一类簇中,通过对代表点的聚类,达到对数据的区域划分,得到所有类簇的基本形状;最后,对于被其它代表点所代表的节点,通过检测代表它们的代表点所属的类簇,判定被代表的节点所属的类簇,对于少数位于不同类簇中的代表点的D临域内的节点,将其划分到相对距离较近的代表点所属的类簇中.实验证明,FCBRP算法对空间需求较小,效率快,精度高,鲁棒性更佳.展开更多
为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数...为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。展开更多
针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定...针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率.展开更多
文摘目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于K个邻居节点时,将其定义为代表点,代表点D临域内所有邻居节点与该代表点之间的平均欧氏距离即为该代表点的相关密度RD,所有的代表点组成代表点集合;将所有在代表点的D临域内的节点定义为能被代表的节点,并将其进行存储;既不是代表点、又不能被其它节点所代表的节点,将其定义为噪音节点;其次,对代表点集合进行聚类,对于给定的密度标准α,如果两个代表点满足密度相关,即两个代表点的相关密度分别乘以密度标准α后同时大于等于两者之间的欧氏距离,则将其划分到同一类簇中,通过对代表点的聚类,达到对数据的区域划分,得到所有类簇的基本形状;最后,对于被其它代表点所代表的节点,通过检测代表它们的代表点所属的类簇,判定被代表的节点所属的类簇,对于少数位于不同类簇中的代表点的D临域内的节点,将其划分到相对距离较近的代表点所属的类簇中.实验证明,FCBRP算法对空间需求较小,效率快,精度高,鲁棒性更佳.
文摘为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。
文摘针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率.