期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于聚类质量的两阶段集成算法
1
作者 闫晨 杨有龙 刘原园 《吉林大学学报(理学版)》 CAS 北大核心 2023年第4期899-908,共10页
针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较... 针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较粗糙,提出首先在生成阶段采用K-means算法生成基聚类成员,然后通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成;其次,进一步在集成阶段应用信息熵知识构建基聚类加权的共协矩阵;最后应用一致函数得到最终聚类结果.采用3个指标在10个真实数据集上进行对比实验,实验结果表明,该算法在有效提升聚类结果准确度的同时,能保持较好的鲁棒性. 展开更多
关键词 集成 聚类质量 群体一致性 信息熵 一致函数
下载PDF
基于引力概念的聚类质量评估算法 被引量:3
2
作者 于勇前 赵相国 +1 位作者 陈衡岳 王国仁 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第8期1109-1112,共4页
为了定量分析聚类算法的聚类结果,提出了基于引力概念的聚类质量评估算法.该算法将数据空间中的数据点视为带有单位质量的质点,通过分析聚类结果中数据点之间的引力关系来评估聚类结果的质量.在一个聚类结果中,各类中的数据点之间引力... 为了定量分析聚类算法的聚类结果,提出了基于引力概念的聚类质量评估算法.该算法将数据空间中的数据点视为带有单位质量的质点,通过分析聚类结果中数据点之间的引力关系来评估聚类结果的质量.在一个聚类结果中,各类中的数据点之间引力大并且噪音数据受到的引力小,这样的聚类结果视为质量较高的聚类结果.相反,如果类中数据间的引力较小而噪音数据所受到的引力较大,这样的聚类结果就是一个质量不高的聚类结果.在几个不同的数据集上,对算法的有效性和高效性进行了测试.实验结果表明,该算法能在极短的响应时间内得到聚类结果评估值,正确地反映聚类结果的优劣.提出的算法可以引导聚类方法自动发现最佳聚类结果而无需人工干预. 展开更多
关键词 聚类质量评估 引力 算法 数据挖掘
下载PDF
一种聚类质量的评价方法及其应用 被引量:7
3
作者 韩习武 赵铁军 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2009年第11期225-227,共3页
提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充... 提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充,也可以用来调整人工聚类标准. 展开更多
关键词 聚类质量 内相似度 外相似度 评价
下载PDF
基于聚类质量的半监督INMF动态社区检测算法 被引量:1
4
作者 陈吉成 陈鸿昶 于洪涛 《计算机工程》 CAS CSCD 北大核心 2019年第10期227-233,共7页
为实现复杂网络的快速分析,提出一种基于聚类质量的改进非负矩阵分解(INMF)算法,将其用于动态社区检测。从理论分析角度证明了演化谱聚类、INMF和模块密度优化之间的等价性,并基于该等价性,在不增加时间复杂度的前提下,通过在INMF中加... 为实现复杂网络的快速分析,提出一种基于聚类质量的改进非负矩阵分解(INMF)算法,将其用于动态社区检测。从理论分析角度证明了演化谱聚类、INMF和模块密度优化之间的等价性,并基于该等价性,在不增加时间复杂度的前提下,通过在INMF中加入先验信息给出一种半监督INMF算法。在人工构造和真实世界的动态网络上的实验结果表明,与QCA、MIEN算法相比,该算法的社区检测质量和社区检测效率更优。 展开更多
关键词 聚类质量 半监督 非负矩阵分解 动态社区检测 图模型
下载PDF
数据降维与K-均值聚类的质量评估
5
作者 何帆 何选森 +2 位作者 刘润宗 樊跃平 熊茂华 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第1期131-141,共11页
聚类分析在大数据时代应用广泛,但缺乏直观评价聚类质量的有效方法。为此,提出一种具有数据降维和搜寻数据固有聚类数量的处理模式。在数据散射矩阵基础上构造一个增广矩阵,利用线性辨别分析将高维数据变换到最具辨别性的低维特征子空... 聚类分析在大数据时代应用广泛,但缺乏直观评价聚类质量的有效方法。为此,提出一种具有数据降维和搜寻数据固有聚类数量的处理模式。在数据散射矩阵基础上构造一个增广矩阵,利用线性辨别分析将高维数据变换到最具辨别性的低维特征子空间以实现数据降维。为解决分区聚类算法的随机初始化问题,提出最小-最大规则,避免出现空聚类并确保数据的可分性。对于聚类的结果,计算每个聚类的轮廓系数,通过比较轮廓的尺寸以评价不同聚类数量情况下的聚类质量。对K-均值算法的仿真结果说明,这种处理模式不仅能够可视化确定未知数据所固有的聚类数量,而且能为高维数据提供有效的分析方法。 展开更多
关键词 聚类质量 散射矩阵 线性辨别分析 最小-最大规则 轮廓分析
下载PDF
基于属性分组的子空间聚类算法研究
6
作者 庞宁 靳黎忠 《西南民族大学学报(自然科学版)》 CAS 2023年第6期653-660,共8页
针对分类数据,基于属性分组技术和多目标聚类质量函数,提出一种子空间聚类算法.该算法采用属性分组技术,将高相关属性划分到同属性组中,利用同组属性相关性度量属性权重值,构建属性软子空间;采用基于多目标的聚类质量函数,判断整体聚类... 针对分类数据,基于属性分组技术和多目标聚类质量函数,提出一种子空间聚类算法.该算法采用属性分组技术,将高相关属性划分到同属性组中,利用同组属性相关性度量属性权重值,构建属性软子空间;采用基于多目标的聚类质量函数,判断整体聚类效果,通过迭代优化簇集结构,达到最佳的数据划分状态.在人工合成数据集和UCI数据集上,实验验证了该算法的正确性、高效性和可靠性. 展开更多
关键词 属性分组 多目标聚类质量函数 属性子空间 数据
下载PDF
一种基于差分演化的K-medoids聚类算法 被引量:11
7
作者 孟颖 罗可 +1 位作者 刘建华 石爽 《计算机应用研究》 CSCD 北大核心 2012年第5期1651-1653,共3页
针对传统的K-medoids聚类算法具有对初始聚类中心敏感、全局搜索能力差、易陷入局部最优、收敛速度缓慢等缺点,提出一种基于差分演化的K-medoids聚类算法。差分演化是一类基于种群的启发式全局搜索技术,有很强的鲁棒性。将差分演化的全... 针对传统的K-medoids聚类算法具有对初始聚类中心敏感、全局搜索能力差、易陷入局部最优、收敛速度缓慢等缺点,提出一种基于差分演化的K-medoids聚类算法。差分演化是一类基于种群的启发式全局搜索技术,有很强的鲁棒性。将差分演化的全局优化能力用于K-medoids聚类算法,有效地克服了K-medoids聚类算法的缺点,缩短了收敛时间,改善了聚类质量。通过仿真验证了此算法的稳定性和鲁棒性。 展开更多
关键词 差分演化 聚类质量 K-medoids算法 全局优化
下载PDF
一种基于粒度原理的多指标综合Web用户聚类算法 被引量:3
8
作者 赵洁 董振宁 +1 位作者 张沙清 肖南峰 《计算机应用研究》 CSCD 北大核心 2011年第7期2427-2431,2435,共6页
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二... 为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。 展开更多
关键词 WEB使用挖掘 粒度原理 高属性维稀疏数据 多指标 聚类质量评价
下载PDF
BIRCH聚类算法优化及并行化研究 被引量:8
9
作者 朱映辉 江玉珍 《计算机工程与设计》 CSCD 北大核心 2007年第18期4345-4346,4369,共3页
为了提高聚类质量,针对BIRCH算法中在聚类精度方面所存在的不足,提出了聚类特征树中的不同簇应使用不同阀值的思想,较好地改善了对体积相差悬殊的簇不能很好聚类的问题。并且深入地研究和分析了如何在集群系统中进行快速聚类,提出了自... 为了提高聚类质量,针对BIRCH算法中在聚类精度方面所存在的不足,提出了聚类特征树中的不同簇应使用不同阀值的思想,较好地改善了对体积相差悬殊的簇不能很好聚类的问题。并且深入地研究和分析了如何在集群系统中进行快速聚类,提出了自定义数据类型、采用数据并行思想和非均匀数据划分策略等几点改进意见。最后实验结果表明,通过改进能够获得比较理想的运行时间和加速比性能。 展开更多
关键词 集群 数据挖掘 聚类质量 并行化
下载PDF
基于知识粒度的高属性维稀疏聚类算法 被引量:2
10
作者 赵洁 肖南峰 陈琼 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第7期20-26,共7页
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限.针对这些问题,文中提出了一种基于知识粒度的高属性维聚类算法.首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此... 目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限.针对这些问题,文中提出了一种基于知识粒度的高属性维聚类算法.首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义;然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强的抗噪声能力;最后结合应用领域定义一种新的聚类质量评价模型.实验证明,该算法可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征. 展开更多
关键词 知识粒度 高属性维稀疏数据 初始等价关系 不可区分度 聚类质量评价
下载PDF
基于层次与划分方法的聚类算法研究 被引量:8
11
作者 甄彤 《计算机工程与应用》 CSCD 北大核心 2006年第8期178-180,共3页
针对在层次聚类算法中,一个分裂或合并被执行,就不能修正,其聚类质量受到限制的缺陷,提出了利用簇间相异度及基于信息熵或整体相似度的聚类质量评价标准,在簇分裂过程中动态的进行簇的合并与分裂的算法。仿真实验结果证明,该算法具有使... 针对在层次聚类算法中,一个分裂或合并被执行,就不能修正,其聚类质量受到限制的缺陷,提出了利用簇间相异度及基于信息熵或整体相似度的聚类质量评价标准,在簇分裂过程中动态的进行簇的合并与分裂的算法。仿真实验结果证明,该算法具有使结果簇更紧凑和独立的效果,具有更好的聚类质量。 展开更多
关键词 层次 相异度 信息熵 整体相似度 聚类质量
下载PDF
不同距离测度的K-Means文本聚类研究 被引量:38
12
作者 陈磊磊 《软件》 2015年第1期56-61,共6页
近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理,并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用VSM技术和TF-IDF加权策略... 近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理,并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用VSM技术和TF-IDF加权策略对文本文档进行了预处理。然后,采用不同测度距离作为相似性度量对数据进行了K-Means聚类实验,并对实验结果进行分析和总结。最后基于之前的结论,在改善文本聚类质量方面,做出了一定的探索。 展开更多
关键词 文本 K-MEANS 测度距离 聚类质量
下载PDF
改进K中心点聚类算法在成绩评价中的应用 被引量:4
13
作者 段桂芹 刘锋 邹臣嵩 《信息技术》 2019年第3期40-43,47,共5页
针对K-means聚类算法在成绩评价中存在的稳定性低,聚类数难确定的问题,提出了一种改进K中心点聚类算法,将样本集与样本的各自平均距离比值作为样本的密度参数,采用最大距离乘积法选择密度较大且距离较远的k个样本作为初始聚类中心,在此... 针对K-means聚类算法在成绩评价中存在的稳定性低,聚类数难确定的问题,提出了一种改进K中心点聚类算法,将样本集与样本的各自平均距离比值作为样本的密度参数,采用最大距离乘积法选择密度较大且距离较远的k个样本作为初始聚类中心,在此基础上,结合聚类评价指标DB设计了聚类质量评价模型。通过对某高校学生成绩的聚类分析结果表明:该模型能够准确地给出聚类数k,有效地挖掘出学生多门课程成绩的分布情况,可以为个性化教学的实施提供一种新的解决方案。 展开更多
关键词 分析 聚类质量评价 内部评价指标 成绩评价
下载PDF
基于量子遗传算法的XML聚类集成
14
作者 蒋勇 谭怀亮 +1 位作者 王祖析 张朝霞 《计算机应用研究》 CSCD 北大核心 2012年第6期2200-2204,共5页
为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通过多次分割、向下、向上、双向... 为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通过多次分割、向下、向上、双向收缩的QR算法分解特征值对应的特征向量来实现矩阵的维数缩减;然后在映射空间上用量子遗传算法实现聚类集成,把每一个样本判别到最优的聚类类别中。这样减少了数据差异性对聚类结果的影响,提高了聚类质量。实验结果表明,在真实的数据集上,该聚类集成算法比其他聚类集成算法具有更好的效果。 展开更多
关键词 XML文档 KNN分 量子遗传算法 集成 聚类质量
下载PDF
K-means聚类算法的一种改进方法 被引量:2
15
作者 任青山 方逵 《福建电脑》 2016年第5期1-2,5,共3页
聚类分析是数据挖掘中的重要研究之一,其算法的好坏直接影响到聚类效果。本文首先论述了经典的K-means聚类算法,然后分析讨论了K-means聚类算法对K值的选择,初始聚类中心的选择及对噪声与孤立点数据敏感等方面的不足,并利用了基于距离... 聚类分析是数据挖掘中的重要研究之一,其算法的好坏直接影响到聚类效果。本文首先论述了经典的K-means聚类算法,然后分析讨论了K-means聚类算法对K值的选择,初始聚类中心的选择及对噪声与孤立点数据敏感等方面的不足,并利用了基于距离算法的孤立点剔除理论,来消除噪声和孤立点等数据对K-means聚类质量的影响,最后通过实验证明,改进后的K-means聚类算法更好的提高了聚类质量。 展开更多
关键词 K-MEANS 孤立点 聚类质量评估
下载PDF
基于相对密度的聚类算法研究与应用 被引量:2
16
作者 赵双柱 《现代计算机》 2013年第9期3-7,20,共6页
针对经典的基于密度的聚类分析算法DBSCAN存在的聚类质量对参数敏感,不能处理多密度数据集等问题,提出基于相对密度的聚类分析算法RDCMD,该算法以某点密度与其领域密度的比值表示该点的相对密度,由于不同点的领域信息是不同的,所以相对... 针对经典的基于密度的聚类分析算法DBSCAN存在的聚类质量对参数敏感,不能处理多密度数据集等问题,提出基于相对密度的聚类分析算法RDCMD,该算法以某点密度与其领域密度的比值表示该点的相对密度,由于不同点的领域信息是不同的,所以相对密度是动态变化的,从而可以适应多密度数据集中点的密度变化。因此,RDCMD算法可以处理多密度数据集,同时能够自动识别噪声。 展开更多
关键词 DBSCAN RDCMD 数据密度 聚类质量 时间复杂度 参数对比
下载PDF
用于动态心电波形聚类评价的Hausdorff策略
17
作者 牟善玲 郑刚 《天津理工大学学报》 2010年第5期25-28,共4页
研究了动态心电信号的波形形态特点,提出了聚类质量有效性评价的Hausdorff策略,该策略通过类内相似度描述的相关数据的自然结构来计算并评价聚类结果的质量.通过采用MIT-BIH提供的标准心律失常数据库进行实验,实验结果和分析表明Hausdo... 研究了动态心电信号的波形形态特点,提出了聚类质量有效性评价的Hausdorff策略,该策略通过类内相似度描述的相关数据的自然结构来计算并评价聚类结果的质量.通过采用MIT-BIH提供的标准心律失常数据库进行实验,实验结果和分析表明Hausdorff策略的评价结果与实际的数据分类状况呈线性相关,适用于动态心电波形聚类结果的有效性评价. 展开更多
关键词 聚类质量 Hausdorff策略 有效性评价 动态心电波形
下载PDF
图像特征聚类优先级判定方法
18
作者 王佳欣 彭天强 高毫林 《河南工程学院学报(自然科学版)》 2015年第1期70-76,共7页
由于图像多种特征的表述能力不同,所以它们在不同图像集上的聚类效果也不同.为确定在特定图像集上图像特征的聚类优先级,分析了3种全局特征颜色、纹理和形状的区分力,通过图像距离曲线说明了其区分力的不同,并通过检索结果验证了不同的... 由于图像多种特征的表述能力不同,所以它们在不同图像集上的聚类效果也不同.为确定在特定图像集上图像特征的聚类优先级,分析了3种全局特征颜色、纹理和形状的区分力,通过图像距离曲线说明了其区分力的不同,并通过检索结果验证了不同的区分力可导致检索结果的不同,进一步提出了由类紧致性和类分离性组成的判别指标——简化全局聚类质量.实验证明,区分性强的特征判别指标最好,该指标可用于确定图像聚类的优先级,从而决定聚类时选取图像特征的种类和图像特征选用的顺序. 展开更多
关键词 图像 优先级 简化全局聚类质量
下载PDF
基于仿射传播聚类的自适应手写字符识别 被引量:6
19
作者 杨怡 王江晴 朱宗晓 《计算机应用》 CSCD 北大核心 2015年第3期807-810,共4页
对于手写字符识别过程中相似字符较多且相同字符存在大量不规则书写变形的问题,提出一种改进的仿射传播聚类算法加入手写字符识别过程中。该算法基于原始仿射传播(AP)聚类算法,将其与聚类评判函数Silhouette结合,通过AP算法迭代过程自... 对于手写字符识别过程中相似字符较多且相同字符存在大量不规则书写变形的问题,提出一种改进的仿射传播聚类算法加入手写字符识别过程中。该算法基于原始仿射传播(AP)聚类算法,将其与聚类评判函数Silhouette结合,通过AP算法迭代过程自适应地改变偏向参数以调整类别数,并且结合每次聚类质量得到最优聚类结果。基于手写汉字识别的实验结果表明,加入了原始AP算法的识别率比传统识别过程得到的识别率总体提高1.52%,而加入改进AP算法的识别率又比加入原始AP算法的识别率总体提高了1.28%。该实验结果验证了加入聚类算法于手写字符识别过程的有效性,而改进AP算法相比原始AP算法在收敛性和聚类质量上都有一定的提高。 展开更多
关键词 仿射传播 手写字符 评判函数 偏向参数 聚类质量
下载PDF
基于网格耦合的数据流聚类 被引量:11
20
作者 张东月 周丽华 +1 位作者 吴湘云 赵丽红 《软件学报》 EI CSCD 北大核心 2019年第3期667-683,共17页
随着越来越多的应用程序产生数据流,数据流聚类分析的研究受到了广泛关注.基于网格的聚类通过将数据流映射到网格结构中形成数据概要,进而对概要进行聚类.这种方法通常具有较高的效率,但是每个网格独立处理,没有考虑网格之间的相互影响... 随着越来越多的应用程序产生数据流,数据流聚类分析的研究受到了广泛关注.基于网格的聚类通过将数据流映射到网格结构中形成数据概要,进而对概要进行聚类.这种方法通常具有较高的效率,但是每个网格独立处理,没有考虑网格之间的相互影响,因此聚类质量有待提高.在聚类过程中不再独立处理网格,而是考虑了网格之间的耦合关系,提出了一种基于网格耦合的数据流聚类算法.网格的耦合更加准确地表达了数据之间的相关性,从而提高了聚类的质量.在合成和真实数据流上的实验结果表明,所提算法具有较高的聚类质量和效率. 展开更多
关键词 数据流 分析 网格耦合 网格结构 聚类质量
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部