摘要
在互联网高速发展的时代,面对数据量的爆炸式增长,通过现有的数据迁移存储系统可以完成大数据量的迁移存储任务但是效率还是较低。尤其是通过对表中数据计数和基于Value值这两种方法查询时整合后的效率要远低于单独使用Hive的查询效率,远不能满足企业数据处理方面的需求。所以对于通过对表中数据计数和基于Value值这两种查询方法的效率还有提升的空间。在对表中数据计数和基于Value值两种数据查询方式进行了优化,主要使用为HBase表分配Region以及设置caching的方法。通过测试得到证明,以上两种查询方式得到了极大优化。主要针对于基于Hadoop平台迁移与查询的性能优化问题。在完成千万条以上数据量的迁移存储时,通过优化查询性能完善了数据存储方面的功能,给企业带来了更为便捷、高效的数据管理服务。
This paper optimizes the data count and two data query methods based on value value in the table.It is proved that the method of assigning region for the HBase table is proved by testing,and the above two query methods have been greatly optimized.This paper focuses on the performance optimization of migration and query based on Hadoop platform.The function of data storage is perfected by optimizing the query performance,which brings more convenient and efficient data management service to the enterprise when it completes the migration and storage of tens of millions of data.
出处
《工业控制计算机》
2018年第9期52-53,55,共3页
Industrial Control Computer