期刊文献+
共找到160篇文章
< 1 2 8 >
每页显示 20 50 100
基于ETL技术的多源异构数据融合方法研究
1
作者 杨国立 姜树明 《齐鲁工业大学学报》 CAS 2024年第4期18-24,共7页
在多源大数据融合阶段处理历年异构的数据时,涉及到多指标和多维度的问题,需要清洗、转换、映射和对齐等操作。相关数据处理工具和方法逐步涌现,但仍难以解决大量数据的交叉融合问题。为此,研究了基于ETL技术的多源异构数据融合方法,分... 在多源大数据融合阶段处理历年异构的数据时,涉及到多指标和多维度的问题,需要清洗、转换、映射和对齐等操作。相关数据处理工具和方法逐步涌现,但仍难以解决大量数据的交叉融合问题。为此,研究了基于ETL技术的多源异构数据融合方法,分析了常用的ETL工具和数据融合技术,包括数据抽取、转换、加载工具以及数据处理算法。分析了面向灵活需求、业务交叉较多和实时数据流场景时,遇到的数据源异构、数据结构差异、数据更新频率困难等问题,并从模块化设计、逻辑和参数分离、标准化构件库、轻量级JSON格式的配置文件等方面研究了ETL工具模块化扩展和构件重复使用的方法,以便更好地处理大规模异构数据。解决了多源大数据融合阶段的交叉融合问题,对提高数据处理效率、确保数据质量以及支持更深入的数据分析和决策具有重要意义。 展开更多
关键词 教育统计 数据挖掘 转换-抽取-加载 软件工程
下载PDF
基于Hadoop技术的加速器大数据安全存储与高效分析系统设计 被引量:2
2
作者 赵子晨 杨锋 +3 位作者 郭玉辉 陈又新 李钊扬 刘海涛 《现代电子技术》 北大核心 2024年第8期9-17,共9页
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬... 为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。 展开更多
关键词 数据仓库 Hadoop技术 加速器 大数据 安全存储 HBASE etl
下载PDF
数据仓库中ETL技术的研究 被引量:117
3
作者 张宁 贾自艳 史忠植 《计算机工程与应用》 CSCD 北大核心 2002年第24期213-216,共4页
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL... 作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。 展开更多
关键词 数据仓库 etl 数据库 数据模型 数据抽取 数据转换 数据清洗 数据装载
下载PDF
面向数据质量的ETL过程建模与实现 被引量:23
4
作者 贾自艳 黄友平 +3 位作者 罗平 李嘉佑 秦亮曦 史忠植 《系统仿真学报》 CAS CSCD 2004年第5期907-911,914,共6页
为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程... 为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程统一的体系结构设计,包括ETL元数据对象建模、ETL转换函数设计、ETL任务建模以及ETL任务模型的描述语言(XTDL)。基于该体系结构和设计思想开发出一个ETL系统—MSETL,目的是为多策略数据挖掘平台(MSMiner)提供高质量的数据。它提供友好界面并对ETL过程进行统一的元数据管理,包括:ETL转换函数的注册和删除;任务模型的生成、执行和删除等功能。 展开更多
关键词 数据仓库 数据质量 抽取-转换-装载(etl) 数据挖掘 数据清洗
下载PDF
数据仓库中ETL技术的探讨与实践 被引量:31
5
作者 王克龙 王玲 +1 位作者 王平立 宋斌 《计算机应用与软件》 CSCD 北大核心 2005年第11期30-31,78,共3页
支持数据抽取、转换、清洗和装载的工具集对任何数据仓库工程都是一个必不可少的关键部件。本文重点探讨了ETL技术以及ETL工具的选择原则,并结合具体实例详细介绍了ETL过程的设计和实现方法。
关键词 数据仓库 etl技术 数据抽取 数据挖掘 联机分析 可靠性
下载PDF
ETL中基于贪婪算法的任务调度方法研究 被引量:9
6
作者 王珊 陈琨 《微电子学与计算机》 CSCD 北大核心 2009年第7期130-133,共4页
面向银行非现场稽核系统中海量数据的处理,提出一种基于贪婪算法ETL最优任务调度方法,使得任务总的执行时间最短.通过实测验证了该任务调度方法的高效和稳定.
关键词 银行非现场稽核 etl(extraction transformation and loading) 任务调度 贪婪算法 效率高
下载PDF
一种可靠的数据仓库中ETL策略与架构设计 被引量:46
7
作者 尤玉林 张宪民 《计算机工程与应用》 CSCD 北大核心 2005年第10期172-174,229,共4页
作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地... 作为数据仓库系统的关键部件,ETL完成数据抽取、清洗、转换和装载的工作,它是构建数据仓库的重要环节,同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的ETL策略和架构。文章首先简单地介绍了数据仓库技术和ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位;然后重点介绍了这种ETL的具体策略和架构设计。 展开更多
关键词 数据仓库 etl 数据抽取 数据转换 数据清洗 数据装载
下载PDF
一种标准的ETL的设计思想及其实现 被引量:14
8
作者 程跟上 郑洪源 丁秋林 《计算机应用研究》 CSCD 北大核心 2005年第3期101-103,共3页
元数据在数据仓库系统中占据着十分重要的地位,其中存放着许多重要的信息,尤其是对于数据仓库的ETL过程,可以说是ETL的指挥中心。提出了以CWM元数据模型标准为基础来开发标准的ETL的设计思想,并描述了具体的开发步骤。
关键词 etl CWM 抽取元数据 转换元数据 加载元数据
下载PDF
基于电信数据仓库系统的ETL研究与设计 被引量:12
9
作者 李颖 郝克刚 葛玮 《计算机应用与软件》 CSCD 2009年第1期178-180,共3页
电信行业大都建立了自己的数据仓库系统,而建立数据仓库的最重要环节便是数据的抽取、转换和加载ETL(Extracting、Transformation、Loading)。通过对现有ETL系统的分析研究,设计并部分实现了基于某省电信公司数据仓库的ETL系统。采取XM... 电信行业大都建立了自己的数据仓库系统,而建立数据仓库的最重要环节便是数据的抽取、转换和加载ETL(Extracting、Transformation、Loading)。通过对现有ETL系统的分析研究,设计并部分实现了基于某省电信公司数据仓库的ETL系统。采取XML格式编辑整个ETL过程,实现部分图形化交互界面,并针对电信系统大数据量的特点,提出性能优化及改进的方法,提高了ETL效率。 展开更多
关键词 etl 电信 数据仓库 大数据量
下载PDF
面向数据质量的ETL框架的设计与实现 被引量:20
10
作者 李庆阳 彭宏 《计算机工程与设计》 CSCD 北大核心 2010年第9期2057-2060,共4页
针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建... 针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理。基于该设计思想开发一个ETL工具-DQETL。DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理。最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤。 展开更多
关键词 数据仓库 数据质量 抽取-转换-装载(etl) 规则推导 数据清洗
下载PDF
基于XML的数据转换系统SuperETL 被引量:4
11
作者 柴胜 周云轩 +2 位作者 黄永平 王洪媛 王云霄 《计算机应用研究》 CSCD 北大核心 2006年第1期16-18,共3页
针对政府机构和企事业单位对数据资源整合的需求,提出一个数据转换系统SuperETL,主要介绍其设计目标、体系结构,并给出了系统中任务的XML定义标准。测试结果表明,SuperETL能够高效、智能地完成数据抽取(Extract)、清洗(C leaning)、转换... 针对政府机构和企事业单位对数据资源整合的需求,提出一个数据转换系统SuperETL,主要介绍其设计目标、体系结构,并给出了系统中任务的XML定义标准。测试结果表明,SuperETL能够高效、智能地完成数据抽取(Extract)、清洗(C leaning)、转换(Transformation)、装载(Loading)及ETL任务。 展开更多
关键词 抽取 清洗 转换 装载
下载PDF
基于语义树的非结构化年鉴Excel表格的ETL方法 被引量:3
12
作者 赵乐 赵宏宇 +1 位作者 刘斌 陈彦如 《计算机应用》 CSCD 北大核心 2021年第S02期131-135,共5页
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义... 针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求。 展开更多
关键词 EXCEL表格 抽取-转换-加载 语义树 正则表达式 数据仓库
下载PDF
ETL技术在复杂数据迁移项目中的应用 被引量:12
13
作者 宋鹏 廉继红 《西安工程大学学报》 CAS 2008年第4期493-497,共5页
针对数据迁移中ETL技术的实现问题,指出可以通过构造输入数据库和中间数据库,利用Datastage工具和PL/SQL程序相结合的方式进行数据迁移.给出了Datastage工具的应用策略和PL/SQL程序实现ETL过程的具体流程.实践表明该方案数据迁移速度较... 针对数据迁移中ETL技术的实现问题,指出可以通过构造输入数据库和中间数据库,利用Datastage工具和PL/SQL程序相结合的方式进行数据迁移.给出了Datastage工具的应用策略和PL/SQL程序实现ETL过程的具体流程.实践表明该方案数据迁移速度较快,能够较好地完成海量数据的迁移任务. 展开更多
关键词 数据迁移 etl PL/SQL Datastage
下载PDF
ETL应用优化设计与实现研究 被引量:9
14
作者 张靖 雷航 +1 位作者 唐雪飞 孟帅朋 《微电子学与计算机》 CSCD 北大核心 2012年第4期134-137,共4页
分析和研究了传统ETL工作流程处理过程,采用JAVA技术,提出了ETL工作流程优化方案,对传统ETL性能问题提出了优化办法,并进行优化处理,很好地解决了数据集成处理过程数据融合、数据一致化和数据同步更新等重要问题,减轻了瓶颈制约,节约了... 分析和研究了传统ETL工作流程处理过程,采用JAVA技术,提出了ETL工作流程优化方案,对传统ETL性能问题提出了优化办法,并进行优化处理,很好地解决了数据集成处理过程数据融合、数据一致化和数据同步更新等重要问题,减轻了瓶颈制约,节约了处理时间开销.实际应用证明,优化后的ETL流程方案有效地减少了传统ETL工作流的时间花费,执行效率好,具有良好的实践应用价值. 展开更多
关键词 etl 优化 设计 效率 性能
下载PDF
基于CWM的标准ETL的设计与实现 被引量:10
15
作者 郑洪源 周良 《吉林大学学报(信息科学版)》 CAS 2006年第1期50-55,共6页
目前开发ETL(Etract Transform Load)系统过程中,最典型的问题就是元数据管理混乱,在分析ETL和元数据之间关系的基础上,提出了一种基于公共仓库模型开发的标准ETL系统设计思想,给出了该标准ETL系统的实现过程。将该方法应用于某医疗保... 目前开发ETL(Etract Transform Load)系统过程中,最典型的问题就是元数据管理混乱,在分析ETL和元数据之间关系的基础上,提出了一种基于公共仓库模型开发的标准ETL系统设计思想,给出了该标准ETL系统的实现过程。将该方法应用于某医疗保险系统的ETL开发过程中,结果表明,与传统的ETL开发过程相比,该系统开发效率提高40%以上,系统具有良好的通用性和易集成性,解决了元数据管理混乱的问题。 展开更多
关键词 数据抽取转换加载 公共仓库模型 抽取元数据 转换元数据 加载元数据
下载PDF
公共数据中心的ETL系统设计与实现 被引量:10
16
作者 赵俊 夏小玲 《计算机应用与软件》 CSCD 2011年第10期167-169,190,共4页
ETL过程是构建数据仓库的重要步骤。大多数现有ETL系统在数据量较大时处理效率偏低。根据ETL在公共数据中心的实际应用改进了原有的ETL结构。鉴于公共数据保密性的特点,设计了数据不同的获取方式;在设置数据转换规则的过程中结合相应领... ETL过程是构建数据仓库的重要步骤。大多数现有ETL系统在数据量较大时处理效率偏低。根据ETL在公共数据中心的实际应用改进了原有的ETL结构。鉴于公共数据保密性的特点,设计了数据不同的获取方式;在设置数据转换规则的过程中结合相应领域知识,保证数据质量;前置机之间实行负载均衡,同时把数据转换的不同步骤分配到两台ETL服务器来完成,保证抽取和转换效率。通过实验证明了该ETL系统具有较好的效率。 展开更多
关键词 etl 数据仓库 数据抽取 数据转换 数据质量
下载PDF
结构图ETL概念模型的设计方法 被引量:3
17
作者 张忠平 赵瑞珍 《计算机工程与应用》 CSCD 北大核心 2009年第6期161-164,共4页
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM... ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。 展开更多
关键词 数据仓库 数据抽取 转换 加载 结构图 概念模型
下载PDF
通用ETL工具的研究与实现 被引量:10
18
作者 孙安健 王星 闫晓瑜 《计算机应用与软件》 CSCD 北大核心 2012年第12期175-178,210,共5页
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出... ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。 展开更多
关键词 数据仓库 数据抽取 数据转换 数据加载
下载PDF
基于大数据处理的ETL框架的研究与设计 被引量:20
19
作者 沈琦 陈博 《电子设计工程》 2016年第2期25-27,34,共4页
针对传统抽取、转换、装载(ETL)架构在数据处理过程控制方面和数据产品开发效率方面的不足,提出一种基于大数据处理的ETL架构。通过分析主流的ETL工具--Datastage的工作原理和ETL过程的特点,设计ETL元数据描述模块、ETL任务描述模块、... 针对传统抽取、转换、装载(ETL)架构在数据处理过程控制方面和数据产品开发效率方面的不足,提出一种基于大数据处理的ETL架构。通过分析主流的ETL工具--Datastage的工作原理和ETL过程的特点,设计ETL元数据描述模块、ETL任务描述模块、配置解析模块和数据任务调度模块等。使用该框架处理数据任务时,以配置文件的方式开发,使工作效率得到了极大的提升。基于该设计思想开发一款基于大数据处理的ETL工具,在对数据处理过程(E、T、L)的控制方面得到了改进,同时也可以使数据开发人员从大量重复的操作中解脱出来,将更多的精力放在数据的逻辑处理方面。 展开更多
关键词 大数据处理 数据抽取 数据转换 数据加载 etl框架
下载PDF
一种金融系统专用ETL工具的研究与实现 被引量:1
20
作者 屈志毅 张延堂 王戈 《计算机工程》 CAS CSCD 北大核心 2008年第20期80-81,85,共3页
实现了一种基于Spring框架的商业银行专用ETL程序。该程序利用Spring框架的控制反转技术,基于Ibatis的数据访问对象技术和Spring JDBC,以及Spring对Timer的支持,解决了ETL过程中的数据转换、数据载入、生命周期管理、任务调度等关键问... 实现了一种基于Spring框架的商业银行专用ETL程序。该程序利用Spring框架的控制反转技术,基于Ibatis的数据访问对象技术和Spring JDBC,以及Spring对Timer的支持,解决了ETL过程中的数据转换、数据载入、生命周期管理、任务调度等关键问题。该程序在IBM System x3850(8864I02)上运行,载入数据的平均速度达到每秒900条记录。 展开更多
关键词 etl工具 SPRING框架 数据转换 任务调度
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部