期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
一种基于加权多代表点的层次聚类算法 被引量:5
1
作者 倪维健 黄亚楼 +1 位作者 李飞 刘赏 《计算机科学》 CSCD 北大核心 2005年第5期150-154,共5页
CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。本文通过对已有的基于多代表点的层次聚类算法特点的分析,提出了一种新的基于多代表点的层次聚类算法WRPC。它使用了基于影响因子的簇代表点选取机制和基于k-... CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。本文通过对已有的基于多代表点的层次聚类算法特点的分析,提出了一种新的基于多代表点的层次聚类算法WRPC。它使用了基于影响因子的簇代表点选取机制和基于k-近邻方法的小簇合并机制,可以发现形状、尺寸更为复杂的簇。实验结果表明,该算法在保证执行效率的情况下取得了更好的聚类效果。 展开更多
关键词 算法 代表 加权 K-近邻 影响因子 效果 执行效率 机制
下载PDF
一种基于代表点的快速聚类算法 被引量:4
2
作者 李晓翠 孟凡荣 周勇 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第4期504-512,共9页
目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于... 目前经典的聚类算法在内存空间有限的情况下,聚类受到时间、空间等各方面的限制,提出一种基于代表点的快速聚类算法FCBRP(fast clustering based representative points).首先,判定数据集中所有节点的属性,当节点的D临域内存在大于等于K个邻居节点时,将其定义为代表点,代表点D临域内所有邻居节点与该代表点之间的平均欧氏距离即为该代表点的相关密度RD,所有的代表点组成代表点集合;将所有在代表点的D临域内的节点定义为能被代表的节点,并将其进行存储;既不是代表点、又不能被其它节点所代表的节点,将其定义为噪音节点;其次,对代表点集合进行聚类,对于给定的密度标准α,如果两个代表点满足密度相关,即两个代表点的相关密度分别乘以密度标准α后同时大于等于两者之间的欧氏距离,则将其划分到同一类簇中,通过对代表点的聚类,达到对数据的区域划分,得到所有类簇的基本形状;最后,对于被其它代表点所代表的节点,通过检测代表它们的代表点所属的类簇,判定被代表的节点所属的类簇,对于少数位于不同类簇中的代表点的D临域内的节点,将其划分到相对距离较近的代表点所属的类簇中.实验证明,FCBRP算法对空间需求较小,效率快,精度高,鲁棒性更佳. 展开更多
关键词 代表选取 代表 FCBRP算法
下载PDF
基于CURE的用户聚类算法研究 被引量:8
3
作者 赵妍 赵学民 《计算机工程与应用》 CSCD 2012年第11期97-101,共5页
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的... 通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。 展开更多
关键词 利用代表(cure)算法 分析 用户兴趣 个性化
下载PDF
引入信息熵的CURE聚类算法 被引量:14
4
作者 伍恒 李文杰 蒋旻 《计算机应用研究》 CSCD 北大核心 2017年第8期2303-2305,共3页
为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数... 为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。 展开更多
关键词 层次 cure算法 信息熵 代表选取
下载PDF
云计算环境下基于代表点增量层次密度聚类的微博事件检测及跟踪 被引量:3
5
作者 冯永 韩楠 贾东风 《计算机应用》 CSCD 北大核心 2013年第12期3559-3562,3595,共5页
为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIH... 为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIHDBSCAN)算法抽取关键词,最终实现新闻事件的检测和跟踪。针对单一节点无法快速高效地处理海量微博数据的问题,将算法部署在云计算平台Hadoop上。通过在新浪微博平台上获取的真实数据进行实验,结果表明,所提出的权值计算方法比TF-IDF和UF-ITUF有更高的性能,并且云框架的使用较好地提高了处理速度,适合用于海量数据的分析和挖掘。 展开更多
关键词 微博 事件检测 密度算法 云计算 HADOOP平台 代表
下载PDF
基于多代表点的聚类方法的改进
6
作者 刘彤 郑永果 《福建电脑》 2005年第6期42-43,28,共3页
CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。通过深入分析现有的基于多代表点的层次聚类算法,本文提出了一种新的改进机制,使用了基于影响因子的族代表点选取机制可以发现形状、尺寸更为复杂的族。实验... CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。通过深入分析现有的基于多代表点的层次聚类算法,本文提出了一种新的改进机制,使用了基于影响因子的族代表点选取机制可以发现形状、尺寸更为复杂的族。实验结果表明,该改进取得了更好的聚类结果。 展开更多
关键词 代表 方法 算法 CORE 影响因子 结果 机制
下载PDF
基于CURE聚类算法改进的原型选择算法 被引量:2
7
作者 孙元元 张德生 张晓 《计算机系统应用》 2019年第8期162-169,共8页
针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定... 针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率. 展开更多
关键词 K 近邻分 原型选择 共享邻居密度 cure 层次 代表
下载PDF
一种改进的CURE聚类算法
8
作者 郭俊 樊彦国 《内蒙古石油化工》 CAS 2005年第4期14-17,共4页
聚类分析是数据挖掘领域的一个重要研究方向。已经有多种用于大规模数据库的聚类算法,CURE就是一个典型的代表。本文对CURE进行了改进,新方法用多点表示一个类,但舍弃了代表点收缩的过程;通过对类内最邻近距离统计特征的分析,提出了自... 聚类分析是数据挖掘领域的一个重要研究方向。已经有多种用于大规模数据库的聚类算法,CURE就是一个典型的代表。本文对CURE进行了改进,新方法用多点表示一个类,但舍弃了代表点收缩的过程;通过对类内最邻近距离统计特征的分析,提出了自动分离子类的方法,因而不用预先给定聚类个数;在CURE对原始数据进行随机采样和分区聚类的基础上,增加了划分网格一步,能降低噪声影响并缩短聚类时间。对二维数据的测试表明:改进的CURE能正确识别大多数类,速度上优于原算法。 展开更多
关键词 算法 大规模数据库 研究方向 数据挖掘 分析 统计特征 自动分离 随机采样 原始数据 噪声影响 二维数据 代表 近距离 网格
下载PDF
数据挖掘中聚类算法比较研究 被引量:35
9
作者 张红云 刘向东 +2 位作者 段晓东 苗夺谦 马垣 《计算机应用与软件》 CSCD 北大核心 2003年第2期5-6,77,共3页
聚类算法是数据挖掘的核心技术,本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题的聚类算法。
关键词 数据挖掘 算法 平衡迭代削减算法 代表算法 数据库
下载PDF
一种基于划分的层次聚类算法 被引量:13
10
作者 沈洁 赵雷 +1 位作者 杨季文 李榕 《计算机工程与应用》 CSCD 北大核心 2007年第31期175-177,共3页
CURE算法是针对大规模数据聚类算法的典型代表。提出了一种新的算法K-CURE,该方法基于划分思想对CURE算法作了改进,同时给出了在聚类中剔除孤立点的时机选择方法。测试表明,改进后的算法效率明显高于原算法,且聚类效果良好。
关键词 数据挖掘 层次 代表对象 cure 孤立
下载PDF
基于网格和密度权值的模糊c均值聚类算法 被引量:1
11
作者 邱保志 卢海艇 《计算机工程与设计》 CSCD 北大核心 2010年第4期822-824,共3页
改进了基于网格和密度的模糊c均值聚类初始化方法,提出了基于网格和密度权值的模糊c均值算法。该算法在参数初始化时用网格代表点代替原算法的网格凝聚点,同时考虑到在样本空间中处于不同位置的样本点对聚类的影响不同,把密度权值作为... 改进了基于网格和密度的模糊c均值聚类初始化方法,提出了基于网格和密度权值的模糊c均值算法。该算法在参数初始化时用网格代表点代替原算法的网格凝聚点,同时考虑到在样本空间中处于不同位置的样本点对聚类的影响不同,把密度权值作为系数加入到模糊c均值聚类算法中。实验结果表明,提出的算法对提高算法的效率是有效的。 展开更多
关键词 模糊C均值算法 代表 密度权值 GDWFCM GDFCM
下载PDF
汉语文本聚类及其算法设计 被引量:3
12
作者 陈炯 范卓华 张虎 《山西电子技术》 2005年第2期29-30,45,共3页
主要针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏感等问题,利用聚类簇代表点选取的方法,同时结合基于人进行聚类判断所遵循的基本原则,即聚类中对象间距离应小于聚类间距离,设计了一种有效的聚类算法,实验结... 主要针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏感等问题,利用聚类簇代表点选取的方法,同时结合基于人进行聚类判断所遵循的基本原则,即聚类中对象间距离应小于聚类间距离,设计了一种有效的聚类算法,实验结果表明算法是有效的。 展开更多
关键词 代表 中心 汉语文本 算法设计 分析法
下载PDF
数据挖掘中聚类算法比较及在武警网络中的应用研究
13
作者 田杰 周晓娟 吕建新 《现代电子技术》 2008年第8期115-117,共3页
聚类算法是数据挖掘的核心技术,根据评价聚类算法优劣的几个标准,对数据挖掘中常用聚类算法做了比较分析,根据各自特点,加以改进,并应用于武警部队数据挖掘项目中。通过运用改进型K-means算法,取得了较好的挖掘结果,为进一步信息的智能... 聚类算法是数据挖掘的核心技术,根据评价聚类算法优劣的几个标准,对数据挖掘中常用聚类算法做了比较分析,根据各自特点,加以改进,并应用于武警部队数据挖掘项目中。通过运用改进型K-means算法,取得了较好的挖掘结果,为进一步信息的智能化检索、信息的过滤、分拣提供依据。 展开更多
关键词 数据挖掘 代表算法 基于密度的算法 K-MEANS算法 指挥自动化
下载PDF
ISODATA动态聚类算法在文本挖掘中的应用
14
作者 李湘云 《长春工程学院学报(自然科学版)》 2007年第2期56-58,共3页
为了对复杂文本挖掘进行聚类分析,提出了一种基于动态ISODATA的聚类算法,详细介绍了此算法的基本思想和具体的算法步骤,并最终给出了试验结果。
关键词 ISODAIA动态算法 文本挖掘 代表
下载PDF
一种改进的CURE的事件聚类方法
15
作者 李静月 徐济成 朱昊 《重庆文理学院学报(社会科学版)》 2015年第5期121-124,共4页
一个文档往往包含多个主题的事件,把分散在多个文本中的同一主题事件组织起来依靠传统的文本聚类是无法实现的.本文通过对已有的CURE算法进行分析,根据事件的特征,对代表点的选取和小类合并机制进行改进,实现了一个改进的CURE算法.实验... 一个文档往往包含多个主题的事件,把分散在多个文本中的同一主题事件组织起来依靠传统的文本聚类是无法实现的.本文通过对已有的CURE算法进行分析,根据事件的特征,对代表点的选取和小类合并机制进行改进,实现了一个改进的CURE算法.实验结果表明:改进后的方法在保证执行效率的情况下取得了更好的聚类效果. 展开更多
关键词 层次 cure 代表 事件
下载PDF
一种利用代表点的有效聚类算法设计与实现 被引量:10
16
作者 陈恩红 王上飞 +1 位作者 宁岩 王煦法 《模式识别与人工智能》 EI CSCD 北大核心 2001年第4期417-422,共6页
本文针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏感等问题,利用聚类簇代表点选取的方法,设计了一种有效的聚类算法。该方法首先从聚类簇中选取充分分散的若干数据点,然后将它们向聚类簇的重心收缩,依此得到... 本文针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏感等问题,利用聚类簇代表点选取的方法,设计了一种有效的聚类算法。该方法首先从聚类簇中选取充分分散的若干数据点,然后将它们向聚类簇的重心收缩,依此得到的多个数据点作为聚类簇的代表。通过选取多个代表点,本算法可以捕捉到不同形状的聚类簇的几何特征,且受离群数据的影响较小,实验结果表明,该算法处理复杂数据是有效的。 展开更多
关键词 层次式 代表 有效算法 数据挖掘 模式识别
原文传递
Binary-Positive下的并行化CURE算法 被引量:3
17
作者 王民 尹超 +2 位作者 王稚慧 要趁红 高婧 《计算机工程与应用》 CSCD 2014年第11期58-61,共4页
当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效... 当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效率的一种权衡。实验分析表明,改进后的CURE算法具有更高的执行效率,且聚类效果良好。 展开更多
关键词 利用代表(cure) Binary—Positive MAPREDUCE 并行
下载PDF
一种基于层次聚类的机场噪声数据挖掘方法 被引量:12
18
作者 徐涛 谢继文 杨国庆 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第5期715-721,共7页
针对机场噪声数据集特征,提出一种基于代表点的快速层次聚类算法,该算法在传统凝聚层次聚类算法的基础上,借助聚类代表点法和二分法策略进行改进。同时,提出一种聚类代表点和聚类算法相似性定义相结合的聚类结果评价方法,并采用其对聚... 针对机场噪声数据集特征,提出一种基于代表点的快速层次聚类算法,该算法在传统凝聚层次聚类算法的基础上,借助聚类代表点法和二分法策略进行改进。同时,提出一种聚类代表点和聚类算法相似性定义相结合的聚类结果评价方法,并采用其对聚类结果进行评价。实验结果表明,该算法不仅运行效率高,而且能够较准确地发现特定类型飞行事件的噪声分布模式,利用该分布模式能够较准确地预测特定类型飞行事件的噪声分布状况。 展开更多
关键词 数据挖掘 机场噪声预测 代表 快速层次算法 结果评价
下载PDF
食品HACCP分类的BIRCH算法 被引量:3
19
作者 陈绍彬 叶飞跃 +1 位作者 刘佰强 金涛 《计算机工程》 CAS CSCD 北大核心 2008年第23期59-61,共3页
食品卫生的HACCP自动分类要处理的数据集形状呈现多样性,对分类结果的准确性和专业性要求很高,已有的算法难以满足。该文基于经典BIRCH算法,结合多阈值思想和多代表点特征树思想,提出多阈值多代表点的BIRCH算法,增加了专业分类知识的指... 食品卫生的HACCP自动分类要处理的数据集形状呈现多样性,对分类结果的准确性和专业性要求很高,已有的算法难以满足。该文基于经典BIRCH算法,结合多阈值思想和多代表点特征树思想,提出多阈值多代表点的BIRCH算法,增加了专业分类知识的指导,并对每一个代表点设立单独的阈值,使得该算法能适应各种形状的数据集,减少了聚类特征树重建次数,提高了算法的效率。 展开更多
关键词 BIRCH算法 特征树 代表 多阈值
下载PDF
FDBSCAN:一种快速 DBSCAN算法(英文) 被引量:42
20
作者 周水庚 周傲英 +2 位作者 金文 范晔 钱卫宁 《软件学报》 EI CSCD 北大核心 2000年第6期735-744,共10页
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输... 聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地对大规模数据库进行聚类 ,速度上数倍于 DBSCAN. 展开更多
关键词 大规模数据库 数据挖掘 快速DBSCAN算法 代表
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部