期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于MapReduce的Canopy-Kmeans改进算法 被引量:65
1
作者 毛典辉 《计算机工程与应用》 CSCD 2012年第27期22-26,68,共6页
针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应... 针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。 展开更多
关键词 canopy-kmeans算法 MAPREDUCE 分布式聚类
下载PDF
双MapReduce改进的Canopy-Kmeans算法 被引量:6
2
作者 刘宝龙 苏金 《西安工业大学学报》 CAS 2016年第9期730-737,共8页
由于传统的Canopy-Kmeans算法在中心点的选取存在随机性,其迭代过程的冗余计算降低了算法的运行效率.文中基于"最小最大原则"和三角不等式原理,在Hadoop平台上提出了一种基于双MapReduce改进的Canopy-Kmeans算法.实验结果表明:设计... 由于传统的Canopy-Kmeans算法在中心点的选取存在随机性,其迭代过程的冗余计算降低了算法的运行效率.文中基于"最小最大原则"和三角不等式原理,在Hadoop平台上提出了一种基于双MapReduce改进的Canopy-Kmeans算法.实验结果表明:设计的并行算法精确率在不同大小的数据集上平均提高了15.3%,加速比和扩展性随着数据规模和节点的不断增加也相应的提高了1.5~3倍,解决了Canopy中心点选中存在的问题和迭代过程中冗余的距离计算. 展开更多
关键词 canopy-kmeans 冗余计算 HADOOP平台 双MapReduce
下载PDF
基于Hadoop平台下的Canopy-Kmeans高效算法 被引量:39
3
作者 赵庆 《电子科技》 2014年第2期29-31,共3页
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cann... 介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。 展开更多
关键词 HADOOP MAPREDUCE canopy-kmeans算法 聚类
下载PDF
基于MapReduce的Canopy-Kmeans算法的并行化 被引量:2
4
作者 张友海 李锋刚 《辽宁科技学院学报》 2017年第1期4-5,13,共3页
数据挖掘的聚类算法Canopy-Kmeans是分析数据内在价值的常用工具之一,传统的基于集中控制的方式算法执行效率,在今天大数据环境下,有待改进。文章数据源为某省运营商在2014年7月经过脱敏后的话单信令数据,通过传统的集中控制方式和基于M... 数据挖掘的聚类算法Canopy-Kmeans是分析数据内在价值的常用工具之一,传统的基于集中控制的方式算法执行效率,在今天大数据环境下,有待改进。文章数据源为某省运营商在2014年7月经过脱敏后的话单信令数据,通过传统的集中控制方式和基于MapReduce的方式。通过实验,我们可以看出使用MapReduce方式具有良好的可行性,而且执行效率也得到明显改善[1]。 展开更多
关键词 聚类算法 canopy-kmeans MAPREDUCE
下载PDF
基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究 被引量:2
5
作者 周功建 《安徽广播电视大学学报》 2018年第4期117-122,128,共7页
在分析Hadoop平台架构和Canopy-Kmeans聚类算法的基础上,对Canopy-Kmeans算法进行了并行化优化改进,通过统计学思维对数据分组抽样后聚类以方便并行化和降低时间复杂度,利用最小最大原则优化Canopy初始中心点选取,用数据异度均值抽样法... 在分析Hadoop平台架构和Canopy-Kmeans聚类算法的基础上,对Canopy-Kmeans算法进行了并行化优化改进,通过统计学思维对数据分组抽样后聚类以方便并行化和降低时间复杂度,利用最小最大原则优化Canopy初始中心点选取,用数据异度均值抽样法保证从原数据中均匀提取数据样本,并对Kmeans迭代计算过程进行优化。结合Hadoop平台下MapReduce框架将改进算法进行并行化设计实现。实验表明,对海量数值数据进行聚类时,改进的Canopy-Kmeans并行算法是有效的、收敛的,在聚类准确率和时效性上都有一定程度的提升。 展开更多
关键词 HADOOP MAPREDUCE 聚类分析 Kmeans算法 canopy-kmeans算法 加速比
下载PDF
Canopy-Kmeans聚类和组合优化的铁矿预配料智能调度 被引量:4
6
作者 曹跃 王雅琳 +2 位作者 何海明 杨卜菘 桂卫华 《控制理论与应用》 EI CAS CSCD 北大核心 2017年第7期947-955,共9页
铁矿预配料的原料种类繁多、化学成分差异较大,且下料槽个数有限、生产约束多,原料下料次序难以确定.针对该配料调度难题,本文提出了一种基于聚类算法和组合优化的铁矿混匀过程预配料智能调度方法.分别根据原料成分中SiO_2,TFe含量的差... 铁矿预配料的原料种类繁多、化学成分差异较大,且下料槽个数有限、生产约束多,原料下料次序难以确定.针对该配料调度难题,本文提出了一种基于聚类算法和组合优化的铁矿混匀过程预配料智能调度方法.分别根据原料成分中SiO_2,TFe含量的差异,采用Canopy-Kmeans聚类方法进行两次聚类,然后综合考虑各项约束条件,利用融合专家规则的组合优化和小范围穷举思想对聚类结果进行组合与排序,得到原料共槽方案与共槽下料次序,以保证在有限下料槽的情况下配完所有原料,且配得的混匀料化学元素含量始终尽可能稳定.经我国某钢铁厂实际生产数据验证,所提方法与现有人工计算方法相比,大幅缩减了运算时间,且矿物化学元素指标的波动小,具有实用价值. 展开更多
关键词 铁矿预配料 有限下料槽 canopy-kmeans算法 组合优化 智能调度
下载PDF
基于密度峰值优化的Canopy-Kmeans并行算法 被引量:7
7
作者 李琪 张欣 +1 位作者 张平康 张航 《通信技术》 2018年第2期312-317,共6页
随着数据规模的爆炸式增长,利用K-means等聚类算法挖掘大数据的潜在价值,已成为一个当前较为重要的研究方向。将Canopy算法与K-means算法结合,可解决K个中心点的选取问题。而针对Canopy-Kmeans算法中初始中心点选取随机、算法受噪声点... 随着数据规模的爆炸式增长,利用K-means等聚类算法挖掘大数据的潜在价值,已成为一个当前较为重要的研究方向。将Canopy算法与K-means算法结合,可解决K个中心点的选取问题。而针对Canopy-Kmeans算法中初始中心点选取随机、算法受噪声点影响等问题,提出了一种利用密度峰值改进的M-Canopy-Kmeans算法,并采用Spark框架实现算法的并行化。实验结果表明,改进后的算法避免了Canopy中心点选取的盲目性,且有效排除了样本中的噪声点,准确性、抗噪性都有明显提高,且在Spark并行框架中具有良好的加速比和扩展性。 展开更多
关键词 密度峰值 SPARK canopy-kmeans 聚类
下载PDF
云计算平台上的Canopy-Kmeans并行聚类算法研究
8
作者 孙秀娟 《现代电子技术》 北大核心 2019年第19期78-81,共4页
针对大数据的高维特性及海量性,提出云计算平台中的Canopy-Kmeans并行聚类算法,通过三角不等式原理,能够使计算冗余降低,使算法执行速度得到提高。对Canopy-Kmeans并行聚类算法进行深入的研究,并且在大量不同大小数据集中的实验结果表明... 针对大数据的高维特性及海量性,提出云计算平台中的Canopy-Kmeans并行聚类算法,通过三角不等式原理,能够使计算冗余降低,使算法执行速度得到提高。对Canopy-Kmeans并行聚类算法进行深入的研究,并且在大量不同大小数据集中的实验结果表明,所设计的并行聚类算法具有良好的加速比、数据伸缩率及扩展率等特点,能够在海量数据挖掘及分析中使用。 展开更多
关键词 云计算平台 canopy-kmeans算法 并行聚类算法 大数据挖掘 集群数据 数据分析
下载PDF
基于Canopy-Kmeans算法的电力企业流量数据分析研究 被引量:1
9
作者 黄冠杰 《信息技术与网络安全》 2022年第1期18-22,共5页
针对电力企业关键信息基础设施大量业务数据易遭受网络攻击的现象,基于各业务信息系统下已有的网络安全设备,通过辅助设备采集流量数据,采用Canopy-Kmeans算法进行数据分析研究。首先通过实验证明了Canopy-Kmeans算法在处理流量数据时,... 针对电力企业关键信息基础设施大量业务数据易遭受网络攻击的现象,基于各业务信息系统下已有的网络安全设备,通过辅助设备采集流量数据,采用Canopy-Kmeans算法进行数据分析研究。首先通过实验证明了Canopy-Kmeans算法在处理流量数据时,相比传统K-means算法,具有更好的聚类效果,准确率提高约11%;然后以采集到的电力关键业务系统的流量数据为基础,基于Canopy-Kmeans算法进行挖掘分析实验,完成相同类型流量数据的聚类,分析出攻击流量与业务流量的特征项,排除部分误报信息,合理开展网络安全防护工作。 展开更多
关键词 电力 流量采集 canopy-kmeans 聚类 流量分析
下载PDF
基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究 被引量:1
10
作者 吴运明 王令村 +1 位作者 魏子栋 郭顺利 《情报科学》 CSSCI 北大核心 2022年第10期97-106,共10页
【目的/意义】为了协助商家和平台获取移动商务在线评论中的用户需求,解决在线评论过载导致用户需求提取困难等问题。【方法/过程】本文首先获取原始在线评论数据集进行文本预处理和清洗;然后,深入语义层面基于改进后的Canopy-Kmeans算... 【目的/意义】为了协助商家和平台获取移动商务在线评论中的用户需求,解决在线评论过载导致用户需求提取困难等问题。【方法/过程】本文首先获取原始在线评论数据集进行文本预处理和清洗;然后,深入语义层面基于改进后的Canopy-Kmeans算法实现用户需求聚合;最后,以聚合结果为层级指标设计Kano问卷,用重要性判别方法和用户满意度指数优化用户需求分类标准,实现用户需求的高效聚合和精准挖掘。【结果/结论】通过实验结果对比分析发现与基于语义的传统聚类方法相比,本文设计的移动商务用户需求聚合与挖掘方法的聚类结果更清晰合理,能够获取更精准和细化的用户需求。【创新/局限】借助Word2vec模型从语义的视角分析用户需求,提出基于Canopy-Kmeans算法的用户需求聚合挖掘模型,但选取的研究对象和数据规模较为有限,下一步将扩大在线商品评论的研究范围及实验数据规模。 展开更多
关键词 在线评论 用户需求聚合 canopy-kmeans KANO模型 移动商务
原文传递
基于云计算平台的聚类算法 被引量:10
11
作者 孟海东 任敬佩 《计算机工程与设计》 北大核心 2015年第11期2990-2994,共5页
针对大数据的海量与高维特性,提出一种在云计算平台上基于MapReduce框架的距离三角不等式Canopy-Kmeans并行聚类算法。利用三角不等式的原理减少计算冗余,提高原算法的执行速度。实验结果表明,该算法减少了I/O以及网络传输的消耗,克服... 针对大数据的海量与高维特性,提出一种在云计算平台上基于MapReduce框架的距离三角不等式Canopy-Kmeans并行聚类算法。利用三角不等式的原理减少计算冗余,提高原算法的执行速度。实验结果表明,该算法减少了I/O以及网络传输的消耗,克服了算法陷入局部最优解的缺点,使之能够充分利用集群的计算和存储能力对大数据进行聚类分析。 展开更多
关键词 云计算 canopy-kmeans算法 三角不等式原理 大数据 并行
下载PDF
一种基于粒子群算法的配电网低电压诊断模型研究 被引量:8
12
作者 李占英 马福兰 马伟兵 《电力大数据》 2019年第5期49-55,共7页
随着智能电网建设的发展,传统的基于检测技术的配电低电压原因诊断已变成基于数据挖掘的电力大数据分类技术,而着眼于低电压故障原因的数据分类研究在国内尚处于起步阶段,为此该文提出一种采用改进聚类算法和支持向量机分类算法的配电... 随着智能电网建设的发展,传统的基于检测技术的配电低电压原因诊断已变成基于数据挖掘的电力大数据分类技术,而着眼于低电压故障原因的数据分类研究在国内尚处于起步阶段,为此该文提出一种采用改进聚类算法和支持向量机分类算法的配电网低电压诊断模型。该模型首先采用Canopy-Kmeans的聚类算法基于配电网历史运行数据进行低电压原因的聚类分析并得出可能存在的低电压原因,然后采用经粒子群算法对支持向量机数据分类算法进行参数优化,最后使用结果参数优化的支持向量机算法对智能电表所采集的配电网实时运行数据进行低电压原因分类并最终输出低压故障原因的诊断结果。实验表明,采样基于粒子群优化的支持向量机诊断模型能够实现90%的低电压原因诊断准确度。 展开更多
关键词 低电压 canopy-kmeans 粒子群优化(PSO) 支持向量机(SVM)
下载PDF
基于Hadoop的并行聚类算法的研究 被引量:1
13
作者 崔莉霞 《计算机光盘软件与应用》 2014年第23期141-142,共2页
本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduc... 本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。 展开更多
关键词 HADOOP MAP REDUCE 聚类 canopy-kmeans算法
下载PDF
基于Map-Reduce模型的BCkmeans并行聚类算法 被引量:2
14
作者 肖雪平 倪建成 曹博 《电子技术(上海)》 2016年第5期26-30,25,共6页
针对传统Canopy-Kmeans算法中的随机性Canopy选取的问题,提出了一种BCKmeans并行优化算法。采用"二分法"全局确定初始Canopy Center(Canopy中心点),避免了Canopy选取的局部最优问题;采用"初始动态迭代的最值原则"对... 针对传统Canopy-Kmeans算法中的随机性Canopy选取的问题,提出了一种BCKmeans并行优化算法。采用"二分法"全局确定初始Canopy Center(Canopy中心点),避免了Canopy选取的局部最优问题;采用"初始动态迭代的最值原则"对Canop Center的选取进行优化,动态迭代改变区域半径T1的值;在Map-Reduce并行计算框架上扩展算法的并行性,充分利用集群的计算和存储能力,从而适应海量分布式存储数据的应用环境。以UCI数据库中的3D Road Network(North Jutland,Denmark)数据集作为聚类应用的背景,对改进后的算法进行了实验分析。实验结果表明:该算法能进一步改善聚类质量,在扩展率以及分类准确率上与随机选取Canopy策略相比都有明显提高。 展开更多
关键词 canopy-kmeans算法 并行优化 MAP-REDUCE 聚类 分布式存储
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部