摘要
随着互联网和计算机技术的发展,各行各业包括人们的日常生活都在不断产生数据,数据量成几何倍数增长,单台计算机已无法完成数据处理。为了解决单机无法完成海量数据处理的问题,本文采用Hadoop分布式计算平台来解决这个问题。Hadoop的Spark模型是新兴的数据梳理引擎,Spark可直接在内存中读取弹性分布式数据集的数据,避免了I/O的频繁操作,并大大提高了数据处理速度。
出处
《网络安全技术与应用》
2020年第3期65-66,共2页
Network Security Technology & Application
基金
国家发改委大数据发展重大工程项目“面向市场环境治理的政务大数据服务平台”.