期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于约束信息的并行k-means算法 被引量:8
1
作者 於跃成 王建东 +1 位作者 郑关胜 陈斌 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第3期505-508,共4页
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束... 为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜索.约束并行k-means算法在理论上保证无约束样本簇内距离最小的同时能够确保chunklet约束中的样本与对应的簇中心之间的平均距离最小.实验结果表明,约束并行k-means算法能够有效改善并行k-means的聚类精度,同时在分布式环境下能够得到与已有约束聚类算法在集中式数据集上相等价的聚类结果. 展开更多
关键词 k-means 并行k-means 约束聚类 约束并行k-means
下载PDF
基于云计算平台Hadoop的并行k-means聚类算法设计研究 被引量:83
2
作者 赵卫中 马慧芳 +1 位作者 傅燕翔 史忠植 《计算机科学》 CSCD 北大核心 2011年第10期166-168,176,共4页
随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策... 随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。 展开更多
关键词 云计算 HADOOP平台 并行k-means MAPREDUCE
下载PDF
基于云计算的并行k-means算法研究
3
作者 林长方 黄仲开 曾少俊 《齐齐哈尔大学学报(自然科学版)》 2014年第5期5-9,共5页
针对传统k-means聚类算法面对海量数据存在时间复杂度急剧增加的问题,结合云计算的优势,提出基于MapReduce编程框架来实现k-means聚类算法的并行化处理。Map函数完成每个样本记录到聚类中心的距离计算并标记其所属聚类类别,Reduce函数... 针对传统k-means聚类算法面对海量数据存在时间复杂度急剧增加的问题,结合云计算的优势,提出基于MapReduce编程框架来实现k-means聚类算法的并行化处理。Map函数完成每个样本记录到聚类中心的距离计算并标记其所属聚类类别,Reduce函数汇总中间结果并计算出新的聚类中心,供下一轮迭代使用。通过实验表明:基于MapReduce的并行化k-means聚类算法具有较好的加速比和良好的扩展性。 展开更多
关键词 云计算 数据挖掘 并行k-means MAPREDUCE
下载PDF
基于优化RDD分区的Spark并行K-means大尺度遥感图像分割
4
作者 李玉 崔书琳 赵泉华 《控制与决策》 EI CSCD 北大核心 2024年第5期1612-1619,共8页
大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设... 大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设置,尽管这种RDD设置简单便捷,但对大尺度图像分割任务容易造成“多分区、小数据”现象,极大影响图像分割速度.为此,采用覆盖部分上海市区的WorldView-3遥感图像为测试数据,在K-means算法初始化聚类中心阶段自定义影响RDD分区的参数spark.sql.shuffle.partitions,在迭代计算阶段调用coalesce()算子减少分区数;与串行K-means算法对比验证单机处理大数据的可行性与有效性,与优化前的Spark并行K-means算法对比实现了大尺度遥感图像快速分割.实验结果表明,在K-means算法初始化聚类中心和迭代计算阶段,将RDD分区数设置在CPU核数的1~10倍,总用时由优化前的145 s缩减到97 s,尤其在初始化聚类中心阶段的时间效率上,优化后是优化前的500~1 000倍. 展开更多
关键词 Spark平台 单机大数据处理 大尺度遥感图像 RDD优化 图像分割 并行k-means算法
原文传递
基于Hash改进的k-means算法并行化设计 被引量:5
5
作者 张波 徐蔚鸿 +1 位作者 陈沅涛 朱玲 《计算机工程与科学》 CSCD 北大核心 2016年第10期1980-1985,共6页
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免... 为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。 展开更多
关键词 海量数据 HADOOP HASH 并行k-means聚类 中心选取
下载PDF
基于云计算平台Hadoop的并行k-means聚类算法设计研究 被引量:2
6
作者 李莉 《网络安全技术与应用》 2017年第12期46-47,共2页
随着信息化时代的到来,也相应提升了科技的发展。现阶段网络技术的发展也不断为数据库的发展提供技术支持。在实际应用网络技术时常常会出现大量的数据需要处理,人们开始致力于探讨致聚类研究课题,但是随着不断深入的盐分分析也显现出... 随着信息化时代的到来,也相应提升了科技的发展。现阶段网络技术的发展也不断为数据库的发展提供技术支持。在实际应用网络技术时常常会出现大量的数据需要处理,人们开始致力于探讨致聚类研究课题,但是随着不断深入的盐分分析也显现出较多的问题,例如出现了新的计算环境还有海量数据等。本文主要是探讨分析了基于云计算平台Hadoop的并行k-means聚类算法设计研究,并且在此基础之上提供了新的设计算法方式以及应对策略。根据大量的数据研究显示,并行k-means聚类算法设计的加速比较为良好,并且具有优质的数据伸缩率性能以及扩展率,有效作用于挖掘和分析海量数据。 展开更多
关键词 云计算 平台Hadoop 并行k-means 聚类算法设计 研究探讨
原文传递
一种基于Hadoop云计算平台的聚类算法优化的研究 被引量:29
7
作者 张石磊 武装 《计算机科学》 CSCD 北大核心 2012年第S2期115-118,共4页
随着信息技术的飞速发展,需要处理的数据量急剧增长,聚类算法的研究面临着海量数据分析和处理的挑战。对K-means聚类算法的优化进行了深入的研究,提出了首先选定初始聚类中心的并行K-means聚类算法。对不同大小的数据集进行测试实验,证... 随着信息技术的飞速发展,需要处理的数据量急剧增长,聚类算法的研究面临着海量数据分析和处理的挑战。对K-means聚类算法的优化进行了深入的研究,提出了首先选定初始聚类中心的并行K-means聚类算法。对不同大小的数据集进行测试实验,证明该优化算法具有更好的时间性、正确性和稳定性,适合于海量数据的分析和处理。 展开更多
关键词 云计算 HADOOP平台 并行k-means MapReudce 初始化聚类中心
下载PDF
基于MapReduce的关联规则技术在电力营销大数据中的应用 被引量:8
8
作者 何壮壮 《山西电力》 2020年第1期45-49,共5页
随着智能电网建设的不断深入和推进,积累的电力营销数据呈指数级增长,如何从这些历史数据中挖掘出"宝藏",已经成为坚强智能电网建设的迫切需求。基于MapReduce平台将关联规则挖掘技术运用于电力营销大数据的分析之中,首先采... 随着智能电网建设的不断深入和推进,积累的电力营销数据呈指数级增长,如何从这些历史数据中挖掘出"宝藏",已经成为坚强智能电网建设的迫切需求。基于MapReduce平台将关联规则挖掘技术运用于电力营销大数据的分析之中,首先采用并行K-means聚类算法将数据离散化处理,再运用并行FP-growth算法挖掘关联关系。按照行业和月份对用电市场进行细分,挖掘各个行业内用户的分类属性(用户属性、市场属性等)与决策属性(分时用电量)之间的强关联规则,并对当前电力市场的特征做出科学的描述,从而降低营销成本,提高营销效率。 展开更多
关键词 MapReduce平台 电力营销数据 关联规则 并行k-means算法 并行FP-growth算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部