摘要
针对Hadoop存在的不足,提出了利用分布式数据库来模拟共享存储空间的解决方案。并对DBIK-means聚类算法做了并行化设计和实验分析,验证了DBIK-means聚类算法在处理大数据时,能够获得较好的加速比。
According to the existing problems of the Hadoop, the scheme of using the distributed database to simulate the sharing storage space is put forward. The clustering algorithm based on DBIK - means is parallel designed and analysed for experiments to verify that the DBIK -means clustering algorithm can get good speedup in processing large data.
出处
《新余学院学报》
2016年第4期115-118,共4页
Journal of Xinyu University
基金
安徽省省级自然科研重点课题<基于ed X平台的云计算课程实训MOOC系统研究>(KJ2015A373)
安徽商贸职业技术学院院级科研项目<基于Hadoop平台的文本聚类算法研究>(2016KYZ05)