期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
大数据Hadoop集群下Sqoop数据传输技术研究
1
作者 周少珂 郭璇 +1 位作者 张振平 付媛冰 《河南科技》 2024年第6期25-28,共4页
【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方... 【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方法】首先在企业服务器上部署配置Hadoop分布式集群系统,其次在该集群上部署Sqoop组件并测试与Mysql数据库和Hive数据仓库的连通性,最后使用Sqoop技术测试本地Mysql数据库和Hive数据仓库之间的导入和导出。【结果】通过Sqoop技术能够更加便捷快速地从本地Mysql数据库上传到Hadoop集群系统,与传统方式下先将本地Mysql数据库中数据导出TXT文档格式后再使用Hive数据仓库的Load数据批量加载功能相比,在时间和效率方面大为提升。【结论】验证了Sqoop组件在Hadoop集群中部署运行的正确性,为大数据技术学习者提供一定程度的参考借鉴。 展开更多
关键词 大数据 HADOOP 分布式集群 sqoop
下载PDF
一种基于Sqoop的数据交换系统 被引量:17
2
作者 于金良 朱志祥 梁小江 《物联网技术》 2016年第3期35-37,共3页
Hadoop是一个可开源提供分布式服务的平台,由于其具有高可靠、高效、高容错性和很强的横向扩展性,因此在大数据领域应用非常广泛,是当今大数据行业的热门。为了将关系型数据库中的数据导入到Hadoop集群中,以达到利用Hadoop本身的优点对... Hadoop是一个可开源提供分布式服务的平台,由于其具有高可靠、高效、高容错性和很强的横向扩展性,因此在大数据领域应用非常广泛,是当今大数据行业的热门。为了将关系型数据库中的数据导入到Hadoop集群中,以达到利用Hadoop本身的优点对数据进行存储、分析、处理的目的,并且在数据传输过程中兼顾传输效率和数据质量。本系统使用一种开源的数据传输工具Sqoop将关系型数据库中的数据导入到Hadoop平台上的分布式文件系统(HDFS)、非关系型数据库(HBase)、关系型数据仓库(Hive)中存储,从而实现数据交换。经测试,该系统可以完成数据交换的功能,系统总的传输速度可以达到20 000条/秒。在网络畅通的条件下,没有数据丢失,保证了数据质量,可实现数据的高效、可靠传输。 展开更多
关键词 sqoop 数据交换 HADOOP 大数据
下载PDF
基于Sqoop的高校海量结构化数据导入研究 被引量:5
3
作者 王建军 张英成 +1 位作者 战非 赵侃 《无线互联科技》 2018年第20期52-53,共2页
高校现有海量信息资源的整合与存储是智慧校园建设的关键,利用Hadoop生态系统相关技术实现高校信息资源的整合可以有效提高信息资源的利用率。文章通过剖析高校信息资源的管理现状,结合Sqoop工具、HBase分布式数据库等技术,尝试性地提... 高校现有海量信息资源的整合与存储是智慧校园建设的关键,利用Hadoop生态系统相关技术实现高校信息资源的整合可以有效提高信息资源的利用率。文章通过剖析高校信息资源的管理现状,结合Sqoop工具、HBase分布式数据库等技术,尝试性地提出了传统结构化信息资源导入HBase分布式数据库的方法和途径,以推进高校智慧校园建设提供理论参考与实践依据。 展开更多
关键词 HADOOP sqoop 信息资源 智慧校园
下载PDF
基于大数据技术的数据分析处理平台设计与实现
4
作者 杨宇 刘昉 《电脑与电信》 2023年第1期81-85,共5页
针对目前大数据分析处理组件多而乱、平台技术架构复杂等问题,综合应用MapReduce、Hive、Sqoop等大数据技术,结合Scrapy数据采集框架,设计一种数据分析处理平台,利用SpringBoot及Vue技术搭建Web系统,实现处理结果的可视化。应用该平台... 针对目前大数据分析处理组件多而乱、平台技术架构复杂等问题,综合应用MapReduce、Hive、Sqoop等大数据技术,结合Scrapy数据采集框架,设计一种数据分析处理平台,利用SpringBoot及Vue技术搭建Web系统,实现处理结果的可视化。应用该平台对中国蔬菜网上的某一批发市场数据进行分析处理,得出年度蔬菜最高最低差价、年度价格排名前十的蔬菜品种等指标统计结果,分析结果对该批发市场的蔬菜投放及价格调控具有一定的指导意义。 展开更多
关键词 大数据 数据分析 Scrapy Hive HDFS sqoop Springboot Vule 中国蔬菜网
下载PDF
配网调控一体模式改革研究
5
作者 吴玮华 张利敏 +2 位作者 金荫洲 吴嵩 张真 《低碳世界》 2023年第11期139-141,共3页
在阐述配网调控一体模式改革的必要性、原则和方向的基础上,围绕配网电气设备工况在线监测系统的构建要素、配网数据调控系统的构建要素(特别是Sqoop开源工具的特点、原理、应用方法与应用价值等)等配网调控一体模式改革的具体方法展开... 在阐述配网调控一体模式改革的必要性、原则和方向的基础上,围绕配网电气设备工况在线监测系统的构建要素、配网数据调控系统的构建要素(特别是Sqoop开源工具的特点、原理、应用方法与应用价值等)等配网调控一体模式改革的具体方法展开分析,以供参考。 展开更多
关键词 配网 调控 一体模式 sqoop开源工具
下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
6
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 HADOOP MAPREDUCE HADOOP分布式文件系统 sqoop
下载PDF
云平台下的装备保障管理系统结构化数据查询 被引量:2
7
作者 张惠民 胡海荣 向阳霞 《计算机系统应用》 2015年第2期70-74,共5页
首先针对我军装备保障管理系统关系数据库在海量数据查询以及分析处理方面的不足,在对系统数据资源分析的基础上提出并实现了基于Hadoop云平台结构化数据查询策略,通过Sqoop工具将数据库中的数据导入到HDFS中,并利用Hive进行数据分析.... 首先针对我军装备保障管理系统关系数据库在海量数据查询以及分析处理方面的不足,在对系统数据资源分析的基础上提出并实现了基于Hadoop云平台结构化数据查询策略,通过Sqoop工具将数据库中的数据导入到HDFS中,并利用Hive进行数据分析.然后通过实验证明此方法克服了海量数据在单机环境中查询效率低下的缺点,具有较高的实用价值. 展开更多
关键词 数据资源 HADOOP 云平台 sqoop Hive
下载PDF
基于Hadoop平台的用户行为挖掘 被引量:6
8
作者 曾志浩 姚贝 +1 位作者 张琼林 孙琪 《计算技术与自动化》 2015年第2期100-103,共4页
随着互联网发展带来的数据爆炸,使得Web日志的数据量也越来越大,如何从海量的Web日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于Hadoop集群框架对Web日志进行挖掘。实验结果表明,该集群系统既可以处理海量的web日志,同时也... 随着互联网发展带来的数据爆炸,使得Web日志的数据量也越来越大,如何从海量的Web日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于Hadoop集群框架对Web日志进行挖掘。实验结果表明,该集群系统既可以处理海量的web日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在Hive仓库和传统数据库之间数据迁移的可行性。 展开更多
关键词 WEB日志 HADOOP sqoop Hive 数据迁移
下载PDF
一种关联感知的大数据导入方法 被引量:2
9
作者 公怀予 徐劲松 王攀 《电信科学》 北大核心 2016年第3期130-134,共5页
针对现有数据库向大数据迁移的背景,Apache推出了Sqoop作为关系数据库向大数据迁移的主要工具。Sqoop简单地将数据表切分并随机存储到不同的节点上。针对Hadoop的这种存储方式带来的关系查询的低效率问题,设计了一种关联度感知的数据导... 针对现有数据库向大数据迁移的背景,Apache推出了Sqoop作为关系数据库向大数据迁移的主要工具。Sqoop简单地将数据表切分并随机存储到不同的节点上。针对Hadoop的这种存储方式带来的关系查询的低效率问题,设计了一种关联度感知的数据导入预处理方法。将关联度较高的表尽量存储在相邻的虚拟机节点,以降低关联数据查询带来的网络传输时延,提高系统的性能。对比实验表明,将关联性较强的数据表存放在相同或相邻节点上,可以成倍提高数据查询的性能。 展开更多
关键词 大数据 sqoop HADOOP NOSQL
下载PDF
采用多叉树模型数据迁移算法的设计与实现 被引量:3
10
作者 宋春红 王佳斌 郑力新 《华侨大学学报(自然科学版)》 CAS 北大核心 2018年第6期932-936,共5页
针对目前传统关系型数据库中的历史数据向非关系型数据库迁移的低效率问题,提出利用多叉树模型对历史数据存储模式进行重构.基于4种模式迁移规则对各表节点之间的关联关系进行分析,推导算法完成传统关系型数据库中存储模式和历史数据的... 针对目前传统关系型数据库中的历史数据向非关系型数据库迁移的低效率问题,提出利用多叉树模型对历史数据存储模式进行重构.基于4种模式迁移规则对各表节点之间的关联关系进行分析,推导算法完成传统关系型数据库中存储模式和历史数据的自动化迁移.该算法不受源数据库存储模式的限制,具有一定的通用性.数据迁移实验表明:在查询性能上,基于多叉树的迁移算法比官方迁移工具Sqoop有较大的提高. 展开更多
关键词 关系型数据库 非关系型数据库 数据迁移 多叉树模型 sqoop
下载PDF
基于大数据的Web个性化推荐系统设计 被引量:7
11
作者 张婷婷 《现代电子技术》 北大核心 2018年第16期155-158,共4页
为了解决基于数据挖掘技术的Web个性化推荐系统对Web的推荐结果准确率低,反应时间长的问题,设计基于大数据的Web个性化推荐系统。塑造系统组成框架图,设计系统的总体功能包括源数据采集、数据预处理、用户兴趣分析与实现、个性化推荐以... 为了解决基于数据挖掘技术的Web个性化推荐系统对Web的推荐结果准确率低,反应时间长的问题,设计基于大数据的Web个性化推荐系统。塑造系统组成框架图,设计系统的总体功能包括源数据采集、数据预处理、用户兴趣分析与实现、个性化推荐以及推荐引擎。源数据采集利用Sqoop工具将数据库中的数据转移到HDFS中以便H-ICRS算法进行数据提取,并获得推荐的历史数据,实现作为系统上层数据支持的功能。针对分析用户长远和当前的Web兴趣度,分别采用语义分析模型和分片聚类的方法,分析用户Web使用兴趣。塑造单个推荐引擎的推荐引擎架构,得到最终的Web个性化推荐列表。实验结果表明,所设计系统的Web个性化推荐结果准确率高,系统的抗压能力强。 展开更多
关键词 大数据 HADOOP WEB个性化推荐 系统设计 sqoop H-ICRS算法
下载PDF
基于Hadoop平台的医院数据集成中心设计与实施 被引量:5
12
作者 李宗仁 王玉珍 +1 位作者 李忠 王能才 《中国医学装备》 2020年第9期128-131,共4页
目的:建立全院统一的高质量数据存储中心,为医疗服务、数据分析及医院运营管理等提供数据基础。方法:搭建Hadoop平台,利用Hadoop的Sqoop组件实时采集医疗数据,并将医疗数据集中存储在HBase数据库中,之后通过并行计算框架加速数据读取、... 目的:建立全院统一的高质量数据存储中心,为医疗服务、数据分析及医院运营管理等提供数据基础。方法:搭建Hadoop平台,利用Hadoop的Sqoop组件实时采集医疗数据,并将医疗数据集中存储在HBase数据库中,之后通过并行计算框架加速数据读取、修改。结果:基于Hadoop的医院生态系统,提供了强大的数据统一存储和计算力,采用高效的并行计算框架,满足全量数据在线高效使用,将医疗数据进行了整合及标准化。结论:数据存储中心能够实现医院精益化运营分析,支持实时统计分析的管理辅助决策、基于大数据的疾病分析决策以及临床辅助诊断决策等;可满足医院的数据利用、医疗质量管理、医院运营及绩效管理等需求。 展开更多
关键词 HADOOP平台 sqoop组件 并行计算 实时采集
下载PDF
一种关系型数据非结构化的转换方法
13
作者 林徐 《榆林学院学报》 2020年第6期69-72,共4页
利用Apache Sqoop将关系型数据转移到非结构化数据库(本文选用HBase)中,通过分析Sqoop并行处理的性能给出了一种关系模式到非结构化模式转换的一种方法,并尝试了使用相关性感知技术对Sqoop作业进行优化,结果表明,通过适当安排NoSQL的列... 利用Apache Sqoop将关系型数据转移到非结构化数据库(本文选用HBase)中,通过分析Sqoop并行处理的性能给出了一种关系模式到非结构化模式转换的一种方法,并尝试了使用相关性感知技术对Sqoop作业进行优化,结果表明,通过适当安排NoSQL的列族结构和使用相关性感知技术安排数据在各节点间的布局,可以大大提升数据转换的性能。 展开更多
关键词 sqoop RDB NOSQL HBASE MAPREDUCE
下载PDF
基于大数据的数字化疫情防控系统设计与实现 被引量:2
14
作者 覃召敬 《信息与电脑》 2020年第9期97-100,共4页
本系统通过大数据平台,将员工的考勤打卡数据、员工基本信息数据传统到大数据平台进行统一汇总、计算、监控,并用报表展示,能够实时跟踪员工的出行状态,有力解决了人工报备出行活动的瞒报、漏报、迟报、缓报、误报等问题,能够满足企业... 本系统通过大数据平台,将员工的考勤打卡数据、员工基本信息数据传统到大数据平台进行统一汇总、计算、监控,并用报表展示,能够实时跟踪员工的出行状态,有力解决了人工报备出行活动的瞒报、漏报、迟报、缓报、误报等问题,能够满足企业低成本、高效、精准、及时地实现数字化自动化的疫情防控需求。 展开更多
关键词 大数据 Hive SmartBI sqoop Vue 疫区防控系统
下载PDF
Hive和Kafka在数据稽核和同步中的应用 被引量:2
15
作者 曹建华 徐晨敏 郭昱含 《中国新通信》 2021年第6期95-97,共3页
中国电信自主测评管理平台使用了Hadoop数据仓库工具Hive对基础数据进行合规性稽核,稽核后的数据通过Sqoop工具同步至Oracle关系数据库。针对多批次百万级数据量并行同步会导致Oracle负载过大影响正常OLTP的情况,通过应用Kafka消息队列,... 中国电信自主测评管理平台使用了Hadoop数据仓库工具Hive对基础数据进行合规性稽核,稽核后的数据通过Sqoop工具同步至Oracle关系数据库。针对多批次百万级数据量并行同步会导致Oracle负载过大影响正常OLTP的情况,通过应用Kafka消息队列,将Hive与Oracle之间的数据并行同步改为异步模式下可按需设置串行/并行同步,问题得到有效解决。 展开更多
关键词 HADOOP Hive sqoop Kafka
下载PDF
基于GIS数据交互的大数据动态自动化平台设计与研究
16
作者 杨诚 易杨 +1 位作者 林建熙 夏伟 《制造业自动化》 CSCD 北大核心 2021年第8期137-141,共5页
目前应用较多的大数据动态自动化平台均存在数据查询性能、数据迁移性能方面的问题,因此设计一种基于GIS数据交互的大数据动态自动化平台。平台由多个模块构成,包括后台支持模块、数据预处理模块、PROFILER模块、数据库模块。其中后台... 目前应用较多的大数据动态自动化平台均存在数据查询性能、数据迁移性能方面的问题,因此设计一种基于GIS数据交互的大数据动态自动化平台。平台由多个模块构成,包括后台支持模块、数据预处理模块、PROFILER模块、数据库模块。其中后台支持模块由主机、交换机、服务器构成。其中主机的数量需要根据实际情况来布设,主机选取的型号为IPC-KR3499。数据预处理模块负责进行大数据的导入与清洗。其中大数据的导入使用的工具为Sqoop,大数据的清洗则具体包括四个阶段:准备、检测、定位以及清洗。PROFILER模块主要负责进行性能分析,该模块支持的数据抓取方式为动态抓取,使用的抓取工具为BTrace。平台使用的数据库是Hbase,是一种可伸缩、面向内存、高性能、高可靠的数据库。搭建实验的集群环境,对设计平台进行性能测试。测试结果表明设计平台的查询平均用时整体较少、数据迁移速率更高,表明设计平台拥有更好的数据查询性能、数据迁移性能,解决了当前存在的问题。 展开更多
关键词 GIS数据交互 HBASE 大数据 sqoop 动态自动化平台
下载PDF
浅议基于Hadoop与SQL-Server2014协作的无人机装备训练数据存储系统建立
17
作者 尹承督 刘建 《价值工程》 2020年第33期212-216,共5页
无人机装备训练数据中所呈现的多元异构现象成为数据存储成为一大难题,使得传统数据库存储捉襟见肘,因此大数据存储与传统数据库协作成为一种更好的方式,本文重点研究Hadoop与SQL-Server协作构建数据库的方法。
关键词 HADOOP SQL-SERVER sqoop 数据库 数据存储
下载PDF
数值预报产品多源文件共享监控保障系统研制
18
作者 夏正龙 钟艳雯 +2 位作者 朱亮 吕冠儒 周超 《现代计算机(中旬刊)》 2018年第10期70-74,79,共6页
从分析数值预报产品收集和共享的特点出发,利用MySQL数据库和HBase分布式数据库,设计并建立一套以MySQL存储实时数据、分布式存储管理历史数据为核心的数值预报产品多源文件共享监控保障系统,实现统一集中监视和数据共享完整性保障等功... 从分析数值预报产品收集和共享的特点出发,利用MySQL数据库和HBase分布式数据库,设计并建立一套以MySQL存储实时数据、分布式存储管理历史数据为核心的数值预报产品多源文件共享监控保障系统,实现统一集中监视和数据共享完整性保障等功能,为省级预报预测预警等业务提供强有力的数据支撑。详细分析由数据共享源、存储管理、功能应用3部分组成的整体结构,并重点阐述MySQL数据库表结构设计、HBase历史数据存储查询主键设计、数据导入工具Sqoop任务和Oozie工作流的配置使用、系统应用功能(实时监控、配置管理及历史查询统计等)的开发设计等思路和方法。 展开更多
关键词 气象数值预报 HBASE sqoop Oozie
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部