期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
数据ETL工具通用框架设计 被引量:26
1
作者 周宏广 周继承 +1 位作者 彭银桥 龙思锐 《计算机应用》 CSCD 北大核心 2003年第12期96-98,共3页
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提... 异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。 展开更多
关键词 数据etl 数据集成 数据清洗
下载PDF
支持探索式研判分析的动态ETL流程服务 被引量:2
2
作者 张硕 赵卓峰 +1 位作者 王桂玲 刘杰 《小型微型计算机系统》 CSCD 北大核心 2019年第1期176-180,共5页
ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往... ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往需要面对大量动态、突发的数据抽取、转换及加载需求,传统预定义式的ETL方式难以快速实现.为此,提出一种支持探索式研判分析的动态ETL流程服务,包括探索式研判分析的基本思路、动态ETL流程服务的实现及ETL处理并发性能优化方法,并结合某公安联合作战指挥应用案例对动态ETL流程服务进行了验证,实际应用表明该服务能够支持以"边构造边执行"的方式实现用于研判分析的ETL流程. 展开更多
关键词 探索式研判分析 动态etl流程 服务 并发性能优化
下载PDF
基于Spark的并行ETL 被引量:7
3
作者 丁祥武 解书亮 李继云 《计算机工程与设计》 北大核心 2017年第9期2580-2585,共6页
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管... 针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。 展开更多
关键词 大数据 数据仓库 抽取、转换、加载 转换处理 分布式 火花大数据平台
下载PDF
ETL过程的调度控制管理研究 被引量:3
4
作者 雷培莉 孟丽 《计算机工程与设计》 CSCD 北大核心 2006年第21期4046-4048,共3页
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这... 对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这些问题,给出了ETL元数据管理、规划管理、执行管理以及异常处理的处理办法,并提出了一套调度控制管理流程。 展开更多
关键词 元数据 抽取转换加载 调度控制 数据仓库 过程
下载PDF
基于数据质量控制的ETL 被引量:4
5
作者 孙水华 刘建华 林志强 《福建工程学院学报》 CAS 2011年第4期363-366,共4页
提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工... 提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工作流程,提高了进入数据挖掘中数据的质量。 展开更多
关键词 etl过程 脏数据处理 数据预处理 数据质量评估
下载PDF
基于大数据处理的ETL框架的研究与设计 被引量:20
6
作者 沈琦 陈博 《电子设计工程》 2016年第2期25-27,34,共4页
针对传统抽取、转换、装载(ETL)架构在数据处理过程控制方面和数据产品开发效率方面的不足,提出一种基于大数据处理的ETL架构。通过分析主流的ETL工具--Datastage的工作原理和ETL过程的特点,设计ETL元数据描述模块、ETL任务描述模块、... 针对传统抽取、转换、装载(ETL)架构在数据处理过程控制方面和数据产品开发效率方面的不足,提出一种基于大数据处理的ETL架构。通过分析主流的ETL工具--Datastage的工作原理和ETL过程的特点,设计ETL元数据描述模块、ETL任务描述模块、配置解析模块和数据任务调度模块等。使用该框架处理数据任务时,以配置文件的方式开发,使工作效率得到了极大的提升。基于该设计思想开发一款基于大数据处理的ETL工具,在对数据处理过程(E、T、L)的控制方面得到了改进,同时也可以使数据开发人员从大量重复的操作中解脱出来,将更多的精力放在数据的逻辑处理方面。 展开更多
关键词 大数据处理 数据抽取 数据转换 数据加载 etl框架
下载PDF
数据ETL过程中的实体识别方法 被引量:2
7
作者 彭银桥 甘元驹 +1 位作者 彭凌西 邓锐 《现代电子技术》 2005年第7期44-46,共3页
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的... 实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、 96.5%,能够满足工程应用的要求。 展开更多
关键词 数据etl 相似重复记录 实体识别算法 实体识别过程框架
下载PDF
数据ETL过程中的实体识别方法 被引量:3
8
作者 彭银桥 甘元驹 +1 位作者 邓锐 彭凌西 《信息技术》 2005年第2期22-24,共3页
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通... 实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。 展开更多
关键词 数据etl 相似重复记录 实体识别算法 实体识别过程框架
下载PDF
ArcGIS Spatial ETL工具在基础地理信息数据库建设中的应用 被引量:11
9
作者 林璐 王永红 苟建雄 《北京测绘》 2017年第5期127-129,共3页
在基础地理信息数据库建设生产过程中,多个工序涉及数据的转换、重构、合并等操作。利用ArcGIS提供的Spatial ETL工具可以实现这些操作的自动化与批量化执行,同时它基于FME的空间语义映射原则,可以确保数据在转换过程中高效、可靠。因此... 在基础地理信息数据库建设生产过程中,多个工序涉及数据的转换、重构、合并等操作。利用ArcGIS提供的Spatial ETL工具可以实现这些操作的自动化与批量化执行,同时它基于FME的空间语义映射原则,可以确保数据在转换过程中高效、可靠。因此,在测绘实际生产中应用Spatial ETL工具,可以提高生产效率,降低人工粗差,进而提升产品质量。 展开更多
关键词 SPATIAL etl 基础地理信息数据库 FME 批量化处理
下载PDF
并行ETL流程的回环检测和执行控制
10
作者 连仁包 《福建金融管理干部学院学报》 2008年第2期46-49,共4页
ETL工具必须能够并行执行ETL流程才能提高服务器的性能,据此,提出了用有向图解决数据集成中并行ETL流程的运行顺序问题,并根据ETL流程的特点提出用邻接表来存储一个有向图的信息。在流程的执行顺序上,采用基于有向图邻接表的深度优先遍... ETL工具必须能够并行执行ETL流程才能提高服务器的性能,据此,提出了用有向图解决数据集成中并行ETL流程的运行顺序问题,并根据ETL流程的特点提出用邻接表来存储一个有向图的信息。在流程的执行顺序上,采用基于有向图邻接表的深度优先遍历,并给出了具体算法流程;提出用有向图的回路检测解决流程的回环检测问题,并根据ETL工作中流程数少的特点改进了检测算法,降低了算法的实现复杂性,并给出了算法流程。 展开更多
关键词 etl流程 回环检测 执行顺序
下载PDF
基于商务智能的流程评估系统中ETL的研究 被引量:8
11
作者 陈玉东 姚青 《计算机工程与设计》 CSCD 北大核心 2014年第8期2752-2756,共5页
为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ET... 为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ETL解决方案以及流程数据的特点,制定应用于业务流程数据的转换规则,确保流程日志中的数据能够快速准确地转换成评估系统需要的标准数据;设计流程数据转换算法。通过某保险公司的流程数据进行了仿真分析,分析结果表明了该模型的可行性和算法的有效性。 展开更多
关键词 商务智能 流程评估 抽取 转换 加载 数据转换 转换规则
下载PDF
肝细胞癌自动化BCLC分期模型研究
12
作者 张冰 许庆祎 《中国卫生标准管理》 2024年第5期92-96,共5页
目的借助大数据平台,构建肝细胞癌(hepatocellular carcinoma,HCC)自动化巴塞罗那分期(Barcelona clinic liver cancer,BCLC)模型,以服务于临床诊疗及学术研究工作。方法选取福建医科大学孟超肝胆医院2020年1月—2022年12月收治的HCC患... 目的借助大数据平台,构建肝细胞癌(hepatocellular carcinoma,HCC)自动化巴塞罗那分期(Barcelona clinic liver cancer,BCLC)模型,以服务于临床诊疗及学术研究工作。方法选取福建医科大学孟超肝胆医院2020年1月—2022年12月收治的HCC患者的临床资料,通过数据仓库技术(extract-transform-load,ETL)工具构建患者的标准化全维度数据集(每个病例含700个维度)。选取2020年1月—2022年12月收治的1076例HCC患者,根据2016年BCLC分期标准,在数据集中提取肝性脑病、腹水、总胆红素、白蛋白、凝血酶原时间、肿瘤个数、肿瘤直径、门静脉癌栓情况、肝外转移情况、患者体力情况等12个相关维度,采用基于机器学习的自然语言处理和基于Python语言的XGBoost(eXtreme gradient boosting)模块等方法构建自动化BCLC分期模型。随机抽取2020年1月—2022年12月收治的HCC患者191例,进行既往病例测试。选择2020年1月—2022年12月收治的180例HCC患者,进行新增病例测试。由2名肝胆外科主治医师对测试病例进行人工分期审核,获得标准分期用于校正。比较模型自动化分期、病例记录分期及标准分期三者间差异,以观察模型的准确性和实用性。结果基于大数据方法学成功构建HCC自动化BCLC分期模型,通过含150个病例的验证集进行验证,准确率为93.33%,提示建模成功。既往病例测试结果提示,经标准分期校正,自动化分期准确率为98.43%,错误3例,其中0期1例、A期2例;记录分期准确率为96.33%,错误7例,其中0期2例,A期5例。新增病例测试结果提示,经标准分期校正,自动化分期准确率为95.56%,错误8例,其中0期1例,A期1例,B期4例,C期2例,D期0例;记录分期准确率为96.11%,错误7例,其中0期2例,A期1例,B期2例,C期2例,D期0例。结论HCC自动化BCLC分期模型高效、准确,在数据标准化方面尚有改进空间,值得向临床推广。 展开更多
关键词 肝细胞癌 BCLC分期 大数据 etl工具 机器学习 自然语言处理 XGBOOST
下载PDF
并行处理技术在ETL计算环境中的应用研究 被引量:3
13
作者 薛娟 苏厚勤 《计算机应用与软件》 CSCD 2011年第8期216-218,共3页
以基金行业项目为背景,针对ETL(Extraction Transformation Loading)执行过程中的性能问题,提出一种结合并行处理和集群负载均衡实现技术提高ETL处理性能的解决方案。实践证明该技术解决方案是可靠和有效的。
关键词 etl 集群 负载均衡 并行处理
下载PDF
基础地理实体转换生产及应用
14
作者 侯兴泽 刘小鹏 +3 位作者 张世亮 李梅娟 马远征 李少敏 《测绘标准化》 2024年第1期59-65,共7页
针对采用基础地理信息要素数据进行基础地理实体转换生产中存在数据源格式多样、转换工作量大、语义化困难、地理实体三维信息缺失的问题,实现基础地理信息要素数据快速实体化转换及应用,本文设计了一套转换生产流程,应用ETL技术进行数... 针对采用基础地理信息要素数据进行基础地理实体转换生产中存在数据源格式多样、转换工作量大、语义化困难、地理实体三维信息缺失的问题,实现基础地理信息要素数据快速实体化转换及应用,本文设计了一套转换生产流程,应用ETL技术进行数据转换,应用知识图谱和地理信息系统(GIS)空间运算进行实体关系语义化,应用多源高程数据采集基础地理实体三维信息,最终实现快速转换生产基础地理实体数据的应用场景。本方案经生产验证,生产流程和技术可行,满足生产精度要求,且实体化速度快,可应用于多种应用场景。 展开更多
关键词 基础地理实体 快速实体化转换 etl技术 高程信息提取 实体关系语义化
下载PDF
ETL技术在船舶制造海量异构数据处理中的应用 被引量:4
15
作者 张怡敏 卜佳 +2 位作者 李杨梅 周清 侯星 《造船技术》 2020年第5期77-82,共6页
以船舶制造海量异构数据为对象,研究ETL技术及其执行工具,建立船舶制造海量异构数据处理架构,构建统一的数据仓库系统,符合船舶数据结构特性,能够可靠、有效、快速地实现船舶制造各种数据间的抽取、清洗、转换及装载,解决船舶数据源无... 以船舶制造海量异构数据为对象,研究ETL技术及其执行工具,建立船舶制造海量异构数据处理架构,构建统一的数据仓库系统,符合船舶数据结构特性,能够可靠、有效、快速地实现船舶制造各种数据间的抽取、清洗、转换及装载,解决船舶数据源无法相互关联及汇总的问题,实现数据整合、展示、分析的快速响应,提高智能管控执行效率。 展开更多
关键词 船舶制造 海量异构数据 etl技术 数据处理
下载PDF
烟草企业数据中心项目中ETL的分析和设计 被引量:1
16
作者 蔡永长 《信息技术》 2010年第9期83-85,共3页
根据烟草商业企业数据中心项目建设的目标,结合湖南烟草信息化系统现状,对数据中心项目中数据集成部分的ETL过程进行详细分析和设计,解决了烟草数据中心项目中ETL过程的瓶颈问题。
关键词 etl过程 烟草数据中心 数据库
下载PDF
基于ArcGIS Spatial ETL工具的森林资源数据批量处理——以都匀市林地年度变更数据为例 被引量:1
17
作者 甘桂春 卢鹏 王晓宁 《湖南林业科技》 2015年第1期74-78,共5页
为更好地完成都匀市林地年度变更工作,使全市森林资源数据得到快速分发并更新。利用Arc GIS和FME软件,自定义Arc GIS Spatial ETL工具的数据转换处理流程模型,自动批量快实现都匀市各乡镇的林地年度变更数据的无损转换。
关键词 SPATIAL etl FME 流程处理模型 林地年度变更 空间数据 都匀市
下载PDF
采用空间ETL和WebGIS的多工业园区环评全程监管方法探索 被引量:1
18
作者 岳波 张伟 《四川环境》 2017年第S1期179-185,共7页
为提高工业园区环保审批部门的规划环评相关决策能力,促进工业园区经济、资源环境的协调发展,提出了一种基于空间ETL和Web GIS的多个工业园区环评全过程监管方法。该方法将试点工业园区的规划环评成果的文字描述、技术指标、图形图廓等... 为提高工业园区环保审批部门的规划环评相关决策能力,促进工业园区经济、资源环境的协调发展,提出了一种基于空间ETL和Web GIS的多个工业园区环评全过程监管方法。该方法将试点工业园区的规划环评成果的文字描述、技术指标、图形图廓等,采用空间ETL的方式从环评报告书清洗、抽取出环评数据,在数据库设计上结合时空数据实现历史数据的管理,以统一的最新可视化编程平台技术,实现了基于Web GIS的多个园区环评数据和图形数据的互联网方式共享共通,最后将该方法应用到两个试点工业园区,取得了不错的效果。下一步工作将应用到更多工业园区,并与生态环境大数据、模式库结合。 展开更多
关键词 工业园区 空间etl WEBGIS 环境影响评价 全程监管
下载PDF
流程化的GIS空间大数据ETL处理实践
19
作者 刘小丽 王志勇 +1 位作者 房效亮 马晓娜 《新一代信息技术》 2020年第12期41-44,共4页
近年来,全国各地大中城市开始建设智慧城市,而智慧城市应用中基础的数据支撑就是空间大数据。为了切实提高空间大数据的处理效率,使用流程化的数据ETL手段成为主流选择。本文通过对比美国ESRI公司的ArcGIS软件Model Builder模块、加拿大... 近年来,全国各地大中城市开始建设智慧城市,而智慧城市应用中基础的数据支撑就是空间大数据。为了切实提高空间大数据的处理效率,使用流程化的数据ETL手段成为主流选择。本文通过对比美国ESRI公司的ArcGIS软件Model Builder模块、加拿大SAFE公司的FME软件和近期非常流行的开源ETL工具Kettle软件,对同一份百万级空间线划数据处理的效率,来说明这三种工具在处理大量空间数据过程中的优缺点。 展开更多
关键词 GIS空间大数据 etl 流程化处理工具
下载PDF
基于OSGI的ETL设计与实现
20
作者 程聪 《科技视界》 2019年第3期1-7,共7页
随着信息化以及大数据快速发展,结构化、半结构化、非结构化的数据越来越多,结构越来越繁杂,传统的ETL已经在数据整合方面存在很大的瓶颈,在可扩展性以及稳定性方面存在很大的弊端。文章介绍了OSGI框架的技术特性,基于OSGI框架Equinox... 随着信息化以及大数据快速发展,结构化、半结构化、非结构化的数据越来越多,结构越来越繁杂,传统的ETL已经在数据整合方面存在很大的瓶颈,在可扩展性以及稳定性方面存在很大的弊端。文章介绍了OSGI框架的技术特性,基于OSGI框架Equinox开发实现的hbust ETL的体系结构,最后详细、着重地论述了hbust ETL核心bundle及其插件扩展点的设计与实现方法。hbust ETL具备很好的数据整合可扩展性以及稳定性,特别在处理当下的大数据方面,具备很大的优势,不同bundle处理不同版本的hadoop、 hive、 hbase等等,不同版本大数据处理,可通过开发可扩展的bundle,发布于OSGI容器,不用修改ETL源代码,即可进行该版本数据整合处理。 展开更多
关键词 SOGI BUNDLE 插件扩展点 etl 数据处理
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部