平衡迭代规约层次聚类(balanced iterative reducing and clustering using hierarchies, BIRCH)算法是一个综合的层次聚类算法。但BIRCH算法为叶子节点中的簇设置统一的空间阈值,根据数据对象与簇之间的距离来决定数据对象的插入位置,...平衡迭代规约层次聚类(balanced iterative reducing and clustering using hierarchies, BIRCH)算法是一个综合的层次聚类算法。但BIRCH算法为叶子节点中的簇设置统一的空间阈值,根据数据对象与簇之间的距离来决定数据对象的插入位置,从而忽略了簇与簇之间的关系;此外,算法在分裂节点时,选取距离最远的2个聚类特征作为子簇,其他聚类特征会根据与这2个聚类特征之间的距离关系分裂为另外的子簇,造成处于簇与簇之间的样本数据错误分类,这样会忽略聚类特征之间的关系。针对BIRCH算法的这2个问题,提出了基于阈值的自适应算法,用于解决原算法统一空间阈值的问题;并在针对聚类特征关系的问题上,结合朴素贝叶斯算法对原算法进行改进。对改进后BIRCH算法与传统的算法进行仿真实验。结果表明,改进算法在损失效率的情况下,聚类效果得到了明显的改善,并且与其他算法相比,所提算法具有不错的表现性,而且具有跨数据集的鲁棒性。展开更多
为解决实时分析处理的海洋Argo浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题,提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法DBIRCH(Density-Based Balanced Iterative Reducing and Clust...为解决实时分析处理的海洋Argo浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题,提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法DBIRCH(Density-Based Balanced Iterative Reducing and Clustering Using Hierarchies)。该算法通过使用新引入的参数密度阈值修正因子,动态的更新限制CF(Clustering Feature)树生长的约束系数子空间阈值,同时结合密度关联思想在不同邻域内多次建立CF树且合并,最终以核心CF树子节点为聚类结果输出,避免了BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法对参数的过度依赖,同时因能处理任意形状簇从而提升了数据处理的整体鲁棒性,提高了处理Argo剖面监测数据的时效性和算法的整体吞吐速度。为测试算法的综合性能,使用真实Argo浮标剖面实时监测数据集,并根据不同的参数对算法做出多组对比实验,同时使用不同评价指标对算法从运行时间和聚类准确率上进行综合评估,从全局角度分析该算法在DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、BIRCH及DBIRCH 3种不同算法中综合聚类性能最优。实验结果表明,在3种算法中,BIRCH算法运算速度最快,但准确率最低;DBSCAN算法聚类性能高于BIRCH算法,但运算速度最慢;改进的DBIRCH算法运算效率略低于BIRCH算法,但聚类准确率最高。展开更多
基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.60273043)安徽省自然科学基金(the Natural Science Foundation of Anhui Province of China under Grant No.050460402)
文摘平衡迭代规约层次聚类(balanced iterative reducing and clustering using hierarchies, BIRCH)算法是一个综合的层次聚类算法。但BIRCH算法为叶子节点中的簇设置统一的空间阈值,根据数据对象与簇之间的距离来决定数据对象的插入位置,从而忽略了簇与簇之间的关系;此外,算法在分裂节点时,选取距离最远的2个聚类特征作为子簇,其他聚类特征会根据与这2个聚类特征之间的距离关系分裂为另外的子簇,造成处于簇与簇之间的样本数据错误分类,这样会忽略聚类特征之间的关系。针对BIRCH算法的这2个问题,提出了基于阈值的自适应算法,用于解决原算法统一空间阈值的问题;并在针对聚类特征关系的问题上,结合朴素贝叶斯算法对原算法进行改进。对改进后BIRCH算法与传统的算法进行仿真实验。结果表明,改进算法在损失效率的情况下,聚类效果得到了明显的改善,并且与其他算法相比,所提算法具有不错的表现性,而且具有跨数据集的鲁棒性。
文摘为解决实时分析处理的海洋Argo浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题,提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法DBIRCH(Density-Based Balanced Iterative Reducing and Clustering Using Hierarchies)。该算法通过使用新引入的参数密度阈值修正因子,动态的更新限制CF(Clustering Feature)树生长的约束系数子空间阈值,同时结合密度关联思想在不同邻域内多次建立CF树且合并,最终以核心CF树子节点为聚类结果输出,避免了BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法对参数的过度依赖,同时因能处理任意形状簇从而提升了数据处理的整体鲁棒性,提高了处理Argo剖面监测数据的时效性和算法的整体吞吐速度。为测试算法的综合性能,使用真实Argo浮标剖面实时监测数据集,并根据不同的参数对算法做出多组对比实验,同时使用不同评价指标对算法从运行时间和聚类准确率上进行综合评估,从全局角度分析该算法在DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、BIRCH及DBIRCH 3种不同算法中综合聚类性能最优。实验结果表明,在3种算法中,BIRCH算法运算速度最快,但准确率最低;DBSCAN算法聚类性能高于BIRCH算法,但运算速度最慢;改进的DBIRCH算法运算效率略低于BIRCH算法,但聚类准确率最高。