期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
并行处理网络下半结构化大数据快速聚类方法
1
作者 王珂 《信息技术与信息化》 2024年第1期126-130,共5页
半结构化数据量已经超过PB级,在这种大规模数据集上快速响应交互式请求,对关系数据库查询和大数据处理技术都提出了挑战。然而当前的聚类算法均是离线批量处理结构化、非结构化数据。面对半结构化数据对象和应用需求的转变,需要对传统... 半结构化数据量已经超过PB级,在这种大规模数据集上快速响应交互式请求,对关系数据库查询和大数据处理技术都提出了挑战。然而当前的聚类算法均是离线批量处理结构化、非结构化数据。面对半结构化数据对象和应用需求的转变,需要对传统聚类算法针对性地优化和改进。设计一种并行处理网络下半结构化大数据快速聚类方法。首先,在常用的Linux与Windows网络环境中捕获大数据包,并对捕获的多源异构大数据做清洗和集成等预处理操作,完成数据准备工作;然后在并行处理网络下,基于MapReduce框架改进常规CanpoyK-means聚类算法形成BCK-means并行聚类算法,对多源异构大数据进行并行化聚类分析,实现半结构化大数据的快速聚类挖掘。实验结果表明,设计方法在10 s内即可完成不同类别的半结构化数据集的聚类且聚类结果稳定,在半结构化数据聚类挖掘效率方面具有优势。 展开更多
关键词 并行处理网络 半结构化大数据 数据快速聚类 方法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部