-
题名并行处理网络下半结构化大数据快速聚类方法
- 1
-
-
作者
王珂
-
机构
广州华南商贸职业学院云智信息技术学院
-
出处
《信息技术与信息化》
2024年第1期126-130,共5页
-
基金
广州华南商贸职业学院2020年大学生校外实践教学基地项目“粤嵌通信-计算机应用技术专业大学生校外实践教学基地”(编号2020HMZLGC29)的研究成果之一。
-
文摘
半结构化数据量已经超过PB级,在这种大规模数据集上快速响应交互式请求,对关系数据库查询和大数据处理技术都提出了挑战。然而当前的聚类算法均是离线批量处理结构化、非结构化数据。面对半结构化数据对象和应用需求的转变,需要对传统聚类算法针对性地优化和改进。设计一种并行处理网络下半结构化大数据快速聚类方法。首先,在常用的Linux与Windows网络环境中捕获大数据包,并对捕获的多源异构大数据做清洗和集成等预处理操作,完成数据准备工作;然后在并行处理网络下,基于MapReduce框架改进常规CanpoyK-means聚类算法形成BCK-means并行聚类算法,对多源异构大数据进行并行化聚类分析,实现半结构化大数据的快速聚类挖掘。实验结果表明,设计方法在10 s内即可完成不同类别的半结构化数据集的聚类且聚类结果稳定,在半结构化数据聚类挖掘效率方面具有优势。
-
关键词
并行处理网络
半结构化大数据
数据快速聚类
聚类方法
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-