摘要
针对现有数据库向大数据迁移的背景,Apache推出了Sqoop作为关系数据库向大数据迁移的主要工具。Sqoop简单地将数据表切分并随机存储到不同的节点上。针对Hadoop的这种存储方式带来的关系查询的低效率问题,设计了一种关联度感知的数据导入预处理方法。将关联度较高的表尽量存储在相邻的虚拟机节点,以降低关联数据查询带来的网络传输时延,提高系统的性能。对比实验表明,将关联性较强的数据表存放在相同或相邻节点上,可以成倍提高数据查询的性能。
Against the background of the existing database to the large data migration, Apache introduced the Sqoop as the main tool for the relational database to the big data migration. Sqoop simply cut the data table and randomly store it on diffe rent nodes. Being aimed at the problem of low efficiency of the query of the relationship between the Hadoop, a method of data importing and preprocessing was designed. To reduce the network transmission delay and improve the performance of the system, the high correlation degree was kept in the adjacent nodes. The contrast experiment shows that the performance of the data query can be improved greatly by the same or adjacent nodes.
出处
《电信科学》
北大核心
2016年第3期130-134,共5页
Telecommunications Science
基金
江苏省自然科学基金资助项目(No.BK2009426)
江苏省高校自然科学基金资助项目(No.14KJD520005)
2013江苏省六大人才高峰计划基金资助项目
2013国家发展和改革委员会信息安全专项基金资助项目
国家电网公司2014年科技项目:电力信息通信网络流量预测和管理智能化关键技术研究及其应用
2015江苏省产学研前瞻性联合研究项目(No.BY2015011-02)~~