期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种K-means改进算法的并行化实现与应用 被引量:50
1
作者 李晓瑜 俞丽颖 +1 位作者 雷航 唐雪飞 《电子科技大学学报》 EI CAS CSCD 北大核心 2017年第1期61-68,共8页
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因... 随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。 展开更多
关键词 canopy算法 HADOOP MAPREDUCE 并行k—means 文本聚类
下载PDF
机群环境下的并行K-means算法 被引量:3
2
作者 毛嘉莉 万敏 陈华月 《宜宾学院学报》 2007年第12期91-93,共3页
针对串行K-means算法已难以适应海量数据的聚类分析,基于机群环境下提出了一种并行K-means算法,采用数据并行策略,引入自适应的数据划分思想,动态地实现了各节点间的负载平衡,从理论分析以及实验结果两个方面验证了该算法的高效率。
关键词 并行k—means算法 机群 PVM 动态负载平衡
下载PDF
WordNet在文本聚类中的应用研究 被引量:1
3
作者 饶洋辉 叶良 程洁 《现代图书情报技术》 CSSCI 北大核心 2009年第10期67-70,共4页
针对文本聚类算法在应用方面存在的"维灾"、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化的文本聚类方法进行性能... 针对文本聚类算法在应用方面存在的"维灾"、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化的文本聚类方法进行性能的比较。实验结果表明,该方法能大幅度降低词列表的维度,提高聚类的准确率和召回率,同时增强各个簇的可理解性。 展开更多
关键词 WORDNET 词性标注 文本聚类 并行k—means
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部