摘要
大数据技术是以数据分析为核心,但是大数据清洗是解决大数据问题的关键,也是大数据处理的基础和前提。鉴于此在文章的研究中基于Spark设计了一套大数据清晰框架,其原理是充分利用Spark分布式计算能力将弹性分布式数据集的操作封装成大数据清晰的任务单元,通过形成较为完整的大数据清晰流水线完成大数据清晰。通过一系列的实验证实基于Spark的大数据清晰框架能够有效的降低大数据清晰的成本,并且有效的促进了大数据清洗性能水平的提升,为大数据处理应用技术的发展提供了有效的保障,奠定了坚实的基础。
出处
《科学技术创新》
2021年第22期109-110,共2页
Scientific and Technological Innovation