摘要
大数据时代环境下如何能够计算海量密集型数据,研究提供了一个聚类算法的分析思路。基于MapReduce和SPRINT算法的编程框架,提出了一种决策树分类算法。通过实际实验对MR-DIDC算法的性能进行了一定量的测试,通过测试的结果来看,该算法具备良好的可扩展性以及较高的数据可用性。在数据量规模比较大的情况下,该算法大规模聚类的运行时间能够大量缩减。这类算法继承了MapReduce的优点,使该算法更适合大数据密集型数据的计算应用。
出处
《信息技术与信息化》
2021年第4期222-224,共3页
Information Technology and Informatization