-
题名面向大数据的并行聚类算法在股票板块划分中的应用
被引量:4
- 1
-
-
作者
海沫
牛怡晗
张悦今
-
机构
中央财经大学信息学院
上海浦东发展银行昆明分行
-
出处
《大数据》
2015年第4期9-17,共9页
-
基金
北京高等学校青年英才计划资助项目(No.YETP0988)
2014年度中财121人才工程青年博士发展基金资助项目(No.QBJ1427)~~
-
文摘
上市公司的经营业绩在一定程度上反映股票的投资价值,因此以反映上市公司盈利能力、偿债能力、成长能力、资产管理质量及股东获利能力5个方面共15项财务指标作为股票投资价值的衡量指标,首次尝试使用面向大数据的并行聚类算法Mahout中的K-means聚类算法和模糊K-means聚类算法对中国A股市场约2 600支股票依据其财务指标进行聚类,以便进行股票板块的划分,并比较两种算法在不同距离度量方式下的迭代次数、执行时间、聚类间密度和聚类内密度。实验结果表明,谷本距离度量方式下的K-means算法聚类效果最好,因此可将该实验结果作为最终股票板块划分结果进行分析,从而为投资决策提供参考。
-
关键词
财务指标
并行聚类算法
K-MEANS
模糊K-means
股票板块划分
-
Keywords
inancial index
parallel clustering algorithm
K-means
fuzzy K-means
division of stock
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
F832.51
[经济管理—金融学]
-
-
题名Hadoop平台下Mahout聚类算法的比较研究
被引量:11
- 2
-
-
作者
牛怡晗
海沫
-
机构
中央财经大学信息学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第S1期465-469,共5页
-
基金
北京高等学校青年英才计划项目(YETP0988)资助
-
文摘
聚类是数据挖掘中的一门重要技术,用于将物理或抽象对象的集合划分成由相似对象构成的多个类。如何将传统聚类算法应用于大规模数据的聚类,是当前大数据研究领域中的热点研究问题。对云计算平台Hadoop下开源机器学习软件库——Mahout中的Canopy、标准K-means、模糊K-means 3种聚类算法的原理及其MapReduce实现进行了比较,并在构建的有不同个数节点的集群上,在不同规模的数据集下对这3种聚类算法进行了实验,从加速比、可扩展性和规模增长性3个方面进行比较。实验结果表明,在并行环境下:Canopy算法运行速度最快,K-means算法次之,模糊K-means最慢;3种算法均有较好的加速比,其中Canopy算法加速比最好,模糊K-means算法在数据量和节点个数达到一定规模后加速比大幅提高;3种算法均有较好的可扩展性和规模增长性,且随着数据规模增加,可扩展性和规模增长性增强,其中Canopy算法可扩展性最好,模糊K-means算法的可扩展性和规模增长性增强幅度最大。
-
关键词
聚类
HADOOP
Mahout
K-MEANS
模糊K-means
CANOPY
-
Keywords
聚类
Hadoop
Mahout
K-means
模糊K-means
Canopy
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-