期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向大数据的并行聚类算法在股票板块划分中的应用 被引量:4
1
作者 海沫 牛怡晗 张悦今 《大数据》 2015年第4期9-17,共9页
上市公司的经营业绩在一定程度上反映股票的投资价值,因此以反映上市公司盈利能力、偿债能力、成长能力、资产管理质量及股东获利能力5个方面共15项财务指标作为股票投资价值的衡量指标,首次尝试使用面向大数据的并行聚类算法Mahout中的... 上市公司的经营业绩在一定程度上反映股票的投资价值,因此以反映上市公司盈利能力、偿债能力、成长能力、资产管理质量及股东获利能力5个方面共15项财务指标作为股票投资价值的衡量指标,首次尝试使用面向大数据的并行聚类算法Mahout中的K-means聚类算法和模糊K-means聚类算法对中国A股市场约2 600支股票依据其财务指标进行聚类,以便进行股票板块的划分,并比较两种算法在不同距离度量方式下的迭代次数、执行时间、聚类间密度和聚类内密度。实验结果表明,谷本距离度量方式下的K-means算法聚类效果最好,因此可将该实验结果作为最终股票板块划分结果进行分析,从而为投资决策提供参考。 展开更多
关键词 财务指标 并行聚类算法 K-MEANS 模糊K-means 股票板块划分
下载PDF
Hadoop平台下Mahout聚类算法的比较研究 被引量:11
2
作者 牛怡晗 海沫 《计算机科学》 CSCD 北大核心 2015年第S1期465-469,共5页
聚类是数据挖掘中的一门重要技术,用于将物理或抽象对象的集合划分成由相似对象构成的多个类。如何将传统聚类算法应用于大规模数据的聚类,是当前大数据研究领域中的热点研究问题。对云计算平台Hadoop下开源机器学习软件库——Mahout中... 聚类是数据挖掘中的一门重要技术,用于将物理或抽象对象的集合划分成由相似对象构成的多个类。如何将传统聚类算法应用于大规模数据的聚类,是当前大数据研究领域中的热点研究问题。对云计算平台Hadoop下开源机器学习软件库——Mahout中的Canopy、标准K-means、模糊K-means 3种聚类算法的原理及其MapReduce实现进行了比较,并在构建的有不同个数节点的集群上,在不同规模的数据集下对这3种聚类算法进行了实验,从加速比、可扩展性和规模增长性3个方面进行比较。实验结果表明,在并行环境下:Canopy算法运行速度最快,K-means算法次之,模糊K-means最慢;3种算法均有较好的加速比,其中Canopy算法加速比最好,模糊K-means算法在数据量和节点个数达到一定规模后加速比大幅提高;3种算法均有较好的可扩展性和规模增长性,且随着数据规模增加,可扩展性和规模增长性增强,其中Canopy算法可扩展性最好,模糊K-means算法的可扩展性和规模增长性增强幅度最大。 展开更多
关键词 聚类 HADOOP Mahout K-MEANS 模糊K-means CANOPY
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部