期刊文献+
共找到930篇文章
< 1 2 47 >
每页显示 20 50 100
基于大数据ETL引擎的批量智能开发平台研究
1
作者 曾国文 梁华生 钟玲 《电信工程技术与标准化》 2024年第3期20-25,共6页
大数据时代,为了能更好提升多样化源数据类型情况下的ETL开发效率,本文提出了一种基于大数据ETL引擎的批量智能开发平台,重构ETL核心代码完善组件功能,用Java代码自研发class方法,智能调度API接口,批量生成全删全插、增量同步、拉链表... 大数据时代,为了能更好提升多样化源数据类型情况下的ETL开发效率,本文提出了一种基于大数据ETL引擎的批量智能开发平台,重构ETL核心代码完善组件功能,用Java代码自研发class方法,智能调度API接口,批量生成全删全插、增量同步、拉链表和数据质量稽核等XML脚本,转译ETL的XML代码为可执行Java代码,降低操作员使用平台的技术难度。通过实操验证,本文提出的方法能增加平台的开发效率,更快速实现需求。 展开更多
关键词 数据仓库 etl引擎 XML脚本 批量开发
下载PDF
基于ETL工具开发的气象数据共享平台
2
作者 张蛟娇 《科技传播》 2024年第8期128-131,共4页
为打破行业数据壁垒,解决气象数据跨行业共享安全性较低、共享数据管理滞后等问题,内蒙古自治区气象数据中心基于ETL工具开发气象数据共享平台,平台针对不同数据共享清单定制数据推送策略,实现数据自动抽取、清洗、推送、全流程日志记录... 为打破行业数据壁垒,解决气象数据跨行业共享安全性较低、共享数据管理滞后等问题,内蒙古自治区气象数据中心基于ETL工具开发气象数据共享平台,平台针对不同数据共享清单定制数据推送策略,实现数据自动抽取、清洗、推送、全流程日志记录,开发可视化数据共享管理平台对交换数据进行统一管理,并将异常状态告警推送至“天镜”系统Alert平台实现告警信息可视化展示。该平台的建设为跨行业数据共享和产品融合提供安全可靠平台,为提高气象部门公共服务能力提供数据支持。 展开更多
关键词 etl工具 气象 管理平台 数据共享
下载PDF
基于ETL和触发器的数据采集整编复演方法研究
3
作者 潘阳 朱江 +3 位作者 钱诗君 韦涛 石进 高瀚远 《信息化研究》 2023年第1期32-37,共6页
数据整编复演对指挥信息系统优化决策、提升效能具有重要意义,逐渐成为研究热点。文章针对传统数据集中整编效率低、定制研发适应性差等问题提出一种基于ETL(Extraction,Transformation,Loading)和触发器的指挥信息系统过程数据自动采... 数据整编复演对指挥信息系统优化决策、提升效能具有重要意义,逐渐成为研究热点。文章针对传统数据集中整编效率低、定制研发适应性差等问题提出一种基于ETL(Extraction,Transformation,Loading)和触发器的指挥信息系统过程数据自动采集和整编复演方法。首先通过配置全量和增量数据抽取任务实现信息系统全过程数据自动采集引接;同时提出基于数据库触发器的数据整编模式,实现对ETL抽取到的增量数据进行伴随计算处理,平滑分散了集中整编的巨大工作量;然后构建回放复演引擎提供指挥信息系统复盘可视化呈现能力;最后通过仿真验证了该方法的整编处理效率和灵活扩展性,并且对自主可控环境有较好的兼容性。 展开更多
关键词 指挥信息系统 数据整编 复演 etl 触发器 自主可控环境
下载PDF
基于数据仓库ETL技术的电力技改大修项目数据清洗方法 被引量:1
4
作者 沈海天 嵇惠方 +2 位作者 游睿 唐梁 谢晓锋 《电工技术》 2023年第14期177-179,共3页
由于重复数据和空缺数据数量多,电力技改大修项目数据清洗方法不能实现脏数据的有效清洗,为此研究基于数据仓库ETL技术的电力技改大修项目数据清洗方法。通过对多数据源的电力技改大修项目脏数据质量的评估,判断符合预期标准后进行数据... 由于重复数据和空缺数据数量多,电力技改大修项目数据清洗方法不能实现脏数据的有效清洗,为此研究基于数据仓库ETL技术的电力技改大修项目数据清洗方法。通过对多数据源的电力技改大修项目脏数据质量的评估,判断符合预期标准后进行数据挖掘;结合数据仓库ETL技术对重复数据记录进行清洗;运用切比雪夫定理处理电力技改大修项目数据空缺值来完成对电力技改大修项目数据的有效清洗。实验结果表明,运用该方法清洗数据有效率最高,有效提高了数据的质量,实现了对数据的高质量清洗。 展开更多
关键词 数据仓库 etl技术 数据清洗
下载PDF
ETL Maturity Model for Data Warehouse Systems:A CMMI Compliant Framework
5
作者 Musawwer Khan Islam Ali +6 位作者 Shahzada Khurram Salman Naseer Shafiq Ahmad Ahmed T.Soliman Akber Abid Gardezi Muhammad Shafiq Jin-Ghoo Choi 《Computers, Materials & Continua》 SCIE EI 2023年第2期3849-3863,共15页
The effectiveness of the Business Intelligence(BI)system mainly depends on the quality of knowledge it produces.The decision-making process is hindered,and the user’s trust is lost,if the knowledge offered is undesir... The effectiveness of the Business Intelligence(BI)system mainly depends on the quality of knowledge it produces.The decision-making process is hindered,and the user’s trust is lost,if the knowledge offered is undesired or of poor quality.A Data Warehouse(DW)is a huge collection of data gathered from many sources and an important part of any BI solution to assist management in making better decisions.The Extract,Transform,and Load(ETL)process is the backbone of a DW system,and it is responsible for moving data from source systems into the DW system.The more mature the ETL process the more reliable the DW system.In this paper,we propose the ETL Maturity Model(EMM)that assists organizations in achieving a high-quality ETL system and thereby enhancing the quality of knowledge produced.The EMM is made up of five levels of maturity i.e.,Chaotic,Acceptable,Stable,Efficient and Reliable.Each level of maturity contains Key Process Areas(KPAs)that have been endorsed by industry experts and include all critical features of a good ETL system.Quality Objectives(QOs)are defined procedures that,when implemented,resulted in a high-quality ETL process.Each KPA has its own set of QOs,the execution of which meets the requirements of that KPA.Multiple brainstorming sessions with relevant industry experts helped to enhance the model.EMMwas deployed in two key projects utilizing multiple case studies to supplement the validation process and support our claim.This model can assist organizations in improving their current ETL process and transforming it into a more mature ETL system.This model can also provide high-quality information to assist users inmaking better decisions and gaining their trust. 展开更多
关键词 etl maturity model CMMI data warehouse maturity model
下载PDF
基于FME-ETL自动绘制盾构区间管片平面图的技术和应用
6
作者 肖云 孙有恒 李良 《价值工程》 2023年第21期75-77,共3页
在地铁区间盾构施工过程中,基于无人机航拍正射影像图叠加盾构施工设计管片图,并通过盾构实时监控系统获取当前施工对应的环号,可在无人机航拍正射影像图上清晰表达地下设备设施对应的地表环境,从而使管理者更全面、更精准掌控盾构施工... 在地铁区间盾构施工过程中,基于无人机航拍正射影像图叠加盾构施工设计管片图,并通过盾构实时监控系统获取当前施工对应的环号,可在无人机航拍正射影像图上清晰表达地下设备设施对应的地表环境,从而使管理者更全面、更精准掌控盾构施工面临的各类穿越风险。基于FME-ETL自动绘制盾构区间管片平面图的技术(以下简称“管片平面图自动生成技术”),是基于设计院提供的盾构施工设计中心线、盾构区间设计环数、管片外径设计参数,按依次对盾构施工中心线进行分段、计算分段端点的法线、绘制管环外径边线图形的技术路线。使用FME-TEL工具,自动绘制盾构区间管片平面图,并保持与盾构施工设计图相同的坐标系。该管片平面图自动生成技术,支持数据的批量处理,相比CAD人工绘图,既大幅提高了工作效率,也降低了人工绘图的错误率。 展开更多
关键词 FME etl 盾构施工 自动绘制 管片平面图
下载PDF
数据ETL工具通用框架设计 被引量:26
7
作者 周宏广 周继承 +1 位作者 彭银桥 龙思锐 《计算机应用》 CSCD 北大核心 2003年第12期96-98,共3页
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提... 异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。 展开更多
关键词 数据etl 数据集成 数据清洗
下载PDF
增量ETL过程自动化产生方法的研究 被引量:19
8
作者 张旭峰 孙未未 +2 位作者 汪卫 冯雅慧 施伯乐 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1097-1103,共7页
ETL过程用于将数据从数据源装载到数据仓库中,它可以被划分为两种类型:全量ETL过程和增量ETL过程·全量ETL过程只能处理全量数据,但易于设计·而增量ETL过程设计起来比较复杂,但适用于处理增量数据·主要对增量ETL过程的自... ETL过程用于将数据从数据源装载到数据仓库中,它可以被划分为两种类型:全量ETL过程和增量ETL过程·全量ETL过程只能处理全量数据,但易于设计·而增量ETL过程设计起来比较复杂,但适用于处理增量数据·主要对增量ETL过程的自动化产生方法进行了研究,根据已有的全量ETL过程,可以自动产生增量ETL过程,从而降低设计增量ETL过程的代价·利用已有的物化视图增量维护的方法,给出了根据全量ETL过程自动产生增量ETL过程的方法·但是已有的研究集中在包含选择、投影、联接和聚合运算情况下物化视图的增量维护,未见对包括差运算情况下的讨论·作为研究工作的基础,还详细讨论了包含差运算情况下物化视图的增量维护问题· 展开更多
关键词 etl 数据仓库 增量维护 物化视图 自维护
下载PDF
面向数据集成的ETL系统设计与实现 被引量:21
9
作者 钟华 冯文澜 +1 位作者 谭红星 黄涛 《计算机科学》 CSCD 北大核心 2004年第9期87-89,F004,共4页
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加截到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了... ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加截到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。 展开更多
关键词 etl 数据集成 过程模型 数据抽取 企业应用集成 数据仓库 转换 系统总体结构 业务数据 信息系统
下载PDF
基于Hadoop技术的加速器大数据安全存储与高效分析系统设计
10
作者 赵子晨 杨锋 +3 位作者 郭玉辉 陈又新 李钊扬 刘海涛 《现代电子技术》 北大核心 2024年第8期9-17,共9页
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬... 为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。 展开更多
关键词 数据仓库 Hadoop技术 加速器 大数据 安全存储 HBASE etl
下载PDF
数据仓库中ETL技术的研究 被引量:116
11
作者 张宁 贾自艳 史忠植 《计算机工程与应用》 CSCD 北大核心 2002年第24期213-216,共4页
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL... 作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。 展开更多
关键词 数据仓库 etl 数据库 数据模型 数据抽取 数据转换 数据清洗 数据装载
下载PDF
一种元数据驱动的ETL方法的研究 被引量:15
12
作者 宋杰 王大玲 +1 位作者 鲍玉斌 于戈 《小型微型计算机系统》 CSCD 北大核心 2007年第12期2167-2173,共7页
数据仓库研究中最重要的问题之一是对ETL方法的研究.本研究提出ETL工具是元数据驱动的,以提供更好的柔性机制、扩展能力和可操作性.本文给出了一种基于SQL的元数据驱动的ETL方法的设计和实现细节,并且以国家海洋环境数据仓库为例,证明... 数据仓库研究中最重要的问题之一是对ETL方法的研究.本研究提出ETL工具是元数据驱动的,以提供更好的柔性机制、扩展能力和可操作性.本文给出了一种基于SQL的元数据驱动的ETL方法的设计和实现细节,并且以国家海洋环境数据仓库为例,证明了这种方法的高效性. 展开更多
关键词 etl 数据仓库 元数据
下载PDF
数据仓库中ETL技术的探讨与实践 被引量:30
13
作者 王克龙 王玲 +1 位作者 王平立 宋斌 《计算机应用与软件》 CSCD 北大核心 2005年第11期30-31,78,共3页
支持数据抽取、转换、清洗和装载的工具集对任何数据仓库工程都是一个必不可少的关键部件。本文重点探讨了ETL技术以及ETL工具的选择原则,并结合具体实例详细介绍了ETL过程的设计和实现方法。
关键词 数据仓库 etl技术 数据抽取 数据挖掘 联机分析 可靠性
下载PDF
基于MapReduce的分布式ETL体系结构研究 被引量:9
14
作者 宋杰 郝文宁 +2 位作者 陈刚 靳大尉 赵水宁 《计算机科学》 CSCD 北大核心 2013年第6期152-154,共3页
针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——MDETL(MapReduce Distributed ETL)。该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执... 针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——MDETL(MapReduce Distributed ETL)。该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执行ETL流程,从而提高了整个ETL系统的灵活性和吞吐率,并具有较好的可扩展性和负载平衡性能,提高了执行效率。 展开更多
关键词 etl MAPREDUCE 分布式
下载PDF
面向数据质量的ETL过程建模与实现 被引量:23
15
作者 贾自艳 黄友平 +3 位作者 罗平 李嘉佑 秦亮曦 史忠植 《系统仿真学报》 CAS CSCD 2004年第5期907-911,914,共6页
为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程... 为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程统一的体系结构设计,包括ETL元数据对象建模、ETL转换函数设计、ETL任务建模以及ETL任务模型的描述语言(XTDL)。基于该体系结构和设计思想开发出一个ETL系统—MSETL,目的是为多策略数据挖掘平台(MSMiner)提供高质量的数据。它提供友好界面并对ETL过程进行统一的元数据管理,包括:ETL转换函数的注册和删除;任务模型的生成、执行和删除等功能。 展开更多
关键词 数据仓库 数据质量 抽取-转换-装载(etl) 数据挖掘 数据清洗
下载PDF
地理编码在空间数据仓库ETL中的应用 被引量:11
16
作者 陈细谦 迟忠先 +1 位作者 昃宗亮 苏立强 《小型微型计算机系统》 CSCD 北大核心 2005年第4期628-630,共3页
空间数据仓库可以有效地管理和利用空间信息以便支持空间分析和决策支持.在空间数据的抽取、转换和加载中如何有效地把非空间信息与空间信息融合起来,是空间数据仓库ETL实现的难点.将地理编码技术引入到空间数据仓库ETL中,给出了融合地... 空间数据仓库可以有效地管理和利用空间信息以便支持空间分析和决策支持.在空间数据的抽取、转换和加载中如何有效地把非空间信息与空间信息融合起来,是空间数据仓库ETL实现的难点.将地理编码技术引入到空间数据仓库ETL中,给出了融合地理编码模块的ETL体系机构.同时为了提高地址匹配能力,将动态规划算法应用到地理编码地址匹配中,并对算法做了改进,给出了完整的应用示例. 展开更多
关键词 地理编码 空间数据仓库 etl 动态规划
下载PDF
数据ETL研究综述 被引量:102
17
作者 徐俊刚 裴莹 《计算机科学》 CSCD 北大核心 2011年第4期15-20,共6页
数据抽取、转换和装载(Extraction,Transformation and Loading,简称ETL)是数据仓库化的关键环节,对数据仓库数据质量有着至关重要的影响。随着信息化的发展,ETL已经成为当前较活跃的研究领域之一,但是ETL理论和技术的发展还不成熟。针... 数据抽取、转换和装载(Extraction,Transformation and Loading,简称ETL)是数据仓库化的关键环节,对数据仓库数据质量有着至关重要的影响。随着信息化的发展,ETL已经成为当前较活跃的研究领域之一,但是ETL理论和技术的发展还不成熟。针对当前ETL研究中存在的一些问题和需要考虑的各种因素,从ETL各个阶段存在的主要问题出发,列举了各种研究方法及研究成果,并进行了分析。最后,总结并提出了ETL的未来研究方向和今后工作的建议。 展开更多
关键词 etl 数据仓库 数据质量 元数据
下载PDF
ETL执行的流水线优化 被引量:15
18
作者 韩京宇 徐立臻 董逸生 《小型微型计算机系统》 CSCD 北大核心 2005年第6期1013-1017,共5页
ETL工具是构建和维护数据仓库的基本构件,由于它处理的是海量数据,如何有效地加快响应时间成为值得研究的问题.本文提出了ETL过程的“主表衍生”模式,并针对这种模式采用流水线算法来提高并行性从而加快ETL过程的响应时间,理论分析和实... ETL工具是构建和维护数据仓库的基本构件,由于它处理的是海量数据,如何有效地加快响应时间成为值得研究的问题.本文提出了ETL过程的“主表衍生”模式,并针对这种模式采用流水线算法来提高并行性从而加快ETL过程的响应时间,理论分析和实验表明具有好的效果. 展开更多
关键词 etl 数据仓库 流水线
下载PDF
数据仓库ETL中相似重复记录的检测方法及应用 被引量:15
19
作者 张永 迟忠先 闫德勤 《计算机应用》 CSCD 北大核心 2006年第4期880-882,共3页
检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到... 检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到了中文字符集中,实例表明该算法具有很好的效果。 展开更多
关键词 位置编码 数据仓库 etl 相似重复记录
下载PDF
基于CEP引擎的配电网运行监控信号大数据ETL方法 被引量:14
20
作者 葛贤军 艾明浩 +2 位作者 李志宏 汪旭 陈乃仕 《电工电能新技术》 CSCD 北大核心 2017年第9期36-42,共7页
电力系统规模在不断扩大,配电网电气设备数量急剧增长且趋于精细化。大量且散乱的运行监控数据使得主动配电网各应用无法快速有效地提取有用信息以形成决策支持。本文利用复杂事件处理(CEP)引擎作为运行监控信号处理核心,通过Apriori机... 电力系统规模在不断扩大,配电网电气设备数量急剧增长且趋于精细化。大量且散乱的运行监控数据使得主动配电网各应用无法快速有效地提取有用信息以形成决策支持。本文利用复杂事件处理(CEP)引擎作为运行监控信号处理核心,通过Apriori机器学习算法定义和完善规则库,通过核心算法库对信号数据流进行规范化处理。整体采用ETL(Extract-Transform-Load)框架,将主动配电网中分散、零乱、标准不统一的信号数据整合、清洗后加载到数据仓库,并以多种数据接口输出至不同介质,供不同应用调用。基于CEP引擎的大数据ETL方法,可对运行监控信号进行快速、精确、有效的规范化处理,实现多数据源集成与输出,为主动配电网设备仿真、故障分析、状态估计等多种重要应用提供数据准备。 展开更多
关键词 CEP引擎 运行监控 大数据 etl 主动配电网 规范化
下载PDF
上一页 1 2 47 下一页 到第
使用帮助 返回顶部