针对随机初始化方式对混合条件属性数据对象的适应调整能力非常低,且其任意性的本质特征,会造成聚类质量大幅度下降的缺陷,提出通过分类条件属性对象的熵值与数值条件属性对象的欧氏距离计算结果的对比,确定第一个簇中心元素的定位值;...针对随机初始化方式对混合条件属性数据对象的适应调整能力非常低,且其任意性的本质特征,会造成聚类质量大幅度下降的缺陷,提出通过分类条件属性对象的熵值与数值条件属性对象的欧氏距离计算结果的对比,确定第一个簇中心元素的定位值;然后以迭代推理的方式评估混合条件属性对象间的距离及关系特性,获得下一个初始簇中心元素并依此类推的初始簇中心定位新算法NCBT(numeric-classification and between the two)。理论分析和实验表明,该算法平均定位准确率较随机初始化方式高出10个百分点,且具有良好的自适应性,能产生优良的聚类结果。展开更多
在传统K-means算法中,初始簇中心选择的随机性,导致聚类结果随不同的聚类中心而不同。因此出现了很多簇中心的选择方法,但是很多已有的簇中心选择算法,其聚类结果受参数调节的影响较大。针对这一问题,提出了一种新的初始簇中心选择算法...在传统K-means算法中,初始簇中心选择的随机性,导致聚类结果随不同的聚类中心而不同。因此出现了很多簇中心的选择方法,但是很多已有的簇中心选择算法,其聚类结果受参数调节的影响较大。针对这一问题,提出了一种新的初始簇中心选择算法,称为WLV-K-means(weighted local variance K-means)。该算法采用加权局部方差度量样本的密度,以更好地发现密度高的样本,并利用改进的最大最小法,启发式地选择簇初始中心点。在UCI数据集上的实验结果表明,WLV-K-means算法不仅能够取得较好的聚类结果,而且受参数变化的影响较小,有更加稳定的表现。展开更多
密度峰值聚类算法(Density Peaks Clustering,DPC),是一种基于密度的聚类算法,该算法具有不需要指定聚类参数,能够发现非球状簇等优点。针对密度峰值算法凭借经验计算截断距离d_c无法有效应对各个场景并且密度峰值算法人工选取聚类中心...密度峰值聚类算法(Density Peaks Clustering,DPC),是一种基于密度的聚类算法,该算法具有不需要指定聚类参数,能够发现非球状簇等优点。针对密度峰值算法凭借经验计算截断距离d_c无法有效应对各个场景并且密度峰值算法人工选取聚类中心的方式难以准确获取实际聚类中心的缺陷,提出了一种基于基尼指数的自适应截断距离和自动获取聚类中心的方法,可以有效解决传统的DPC算法无法处理复杂数据集的缺点。该算法首先通过基尼指数自适应截断距离d_c,然后计算各点的簇中心权值,再用斜率的变化找出临界点,这一策略有效避免了通过决策图人工选取聚类中心所带来的误差。实验表明,新算法不仅能够自动确定聚类中心,而且比原算法准确率更高。展开更多
文摘针对随机初始化方式对混合条件属性数据对象的适应调整能力非常低,且其任意性的本质特征,会造成聚类质量大幅度下降的缺陷,提出通过分类条件属性对象的熵值与数值条件属性对象的欧氏距离计算结果的对比,确定第一个簇中心元素的定位值;然后以迭代推理的方式评估混合条件属性对象间的距离及关系特性,获得下一个初始簇中心元素并依此类推的初始簇中心定位新算法NCBT(numeric-classification and between the two)。理论分析和实验表明,该算法平均定位准确率较随机初始化方式高出10个百分点,且具有良好的自适应性,能产生优良的聚类结果。
文摘在传统K-means算法中,初始簇中心选择的随机性,导致聚类结果随不同的聚类中心而不同。因此出现了很多簇中心的选择方法,但是很多已有的簇中心选择算法,其聚类结果受参数调节的影响较大。针对这一问题,提出了一种新的初始簇中心选择算法,称为WLV-K-means(weighted local variance K-means)。该算法采用加权局部方差度量样本的密度,以更好地发现密度高的样本,并利用改进的最大最小法,启发式地选择簇初始中心点。在UCI数据集上的实验结果表明,WLV-K-means算法不仅能够取得较好的聚类结果,而且受参数变化的影响较小,有更加稳定的表现。
文摘密度峰值聚类算法(Density Peaks Clustering,DPC),是一种基于密度的聚类算法,该算法具有不需要指定聚类参数,能够发现非球状簇等优点。针对密度峰值算法凭借经验计算截断距离d_c无法有效应对各个场景并且密度峰值算法人工选取聚类中心的方式难以准确获取实际聚类中心的缺陷,提出了一种基于基尼指数的自适应截断距离和自动获取聚类中心的方法,可以有效解决传统的DPC算法无法处理复杂数据集的缺点。该算法首先通过基尼指数自适应截断距离d_c,然后计算各点的簇中心权值,再用斜率的变化找出临界点,这一策略有效避免了通过决策图人工选取聚类中心所带来的误差。实验表明,新算法不仅能够自动确定聚类中心,而且比原算法准确率更高。