期刊文献+

基于云计算的海量大数据智能清洗系统设计 被引量:10

Design of intelligent cleaning system for massive data based on cloud computing
下载PDF
导出
摘要 大数据资源是企业拥有的最重要的战略资源之一,也是管理层制定远景规划,提高市场竞争力的主要方式和途径,但大数据中会存在错误、冗余和不完整的数据,降低了大数据的总体质量。为此设计一种基于云计算的海量大数据智能清洗系统,改善现有大数据清洗系统在脏数据处理性能上的不足。分析了基于云计算的大数据智能清洗系统的总体框架和硬件构成,数据清洗系统的硬件部分由数据预处理模块、数据云聚类模块、数据识别模块和实体划分模块等部分组成;给出了智能大数据清洗系统的总体软件工作流程,并重点分析大数据空间聚类、相似度计算等关键的数据处理技术。验证结果表明,提出的基于云计算的海量大数据智能清洗系统设计的总体功能性较为完善,在系统性能测试方面也能够保持95%以上的数据查准率和召回率。 Big data resource is one of the most important strategic resources owned by the enterprise.It is also the main way and approach for the management to make long⁃term plans and improve market competitiveness of the enterprise.However,there are errors,redundancies and incomplete data in big data,which reduces the overall quality of big data.For this reason,an intelligent cleaning system for massive data based on cloud computing is designed to improve the shortcomings of the dirty data processing performance in the existing big data cleaning system.The overall framework and hardware structure of the intelligent cleaning system for big data based on cloud computing are analyzed.The hardware of the system consists of data preprocessing module,data cloud clustering module,data identification module and entity partition module.The overall software workflow of the intelligent cleaning system for big data is provided,and the key data processing technologies like big data clustering and similarity calculation are emphatically analyzed.The verification results show that the proposed intelligent cleaning system for massive data based on cloud computing has perfect overall functions and the precision and recall rate of data can be kept above 95%in the system performance testing.
作者 黄正鹏 王力 张明富 HUANG Zhengpeng;WANG Li;ZHANG Mingfu(School of Information Engineering,Guizhou University of Engineering Science,Bijie 551700,China)
出处 《现代电子技术》 北大核心 2020年第3期116-120,共5页 Modern Electronics Technique
基金 贵州省教育厅青年科技人才成长项目:扶贫大数据的存储结构及访问优化研究(黔教合KY字[2016]289) 贵州省教育厅创新群体重大研究项目:精准扶贫多源异构数据融合研究与平台建设(黔教合KY字[2016]057) 贵州工程应用技术学院“互联网+”创新创业训练中心(黔教合JX字DC201601号)
关键词 云计算 海量大数据 智能清洗系统 云聚类 查准率 召回率 cloud computing massive data intelligent cleaning system cloud clustering precision recall rate
  • 相关文献

参考文献13

二级参考文献124

共引文献299

同被引文献117

引证文献10

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部