期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于ETL技术的多源异构数据融合方法研究
1
作者 杨国立 姜树明 《齐鲁工业大学学报》 CAS 2024年第4期18-24,共7页
在多源大数据融合阶段处理历年异构的数据时,涉及到多指标和多维度的问题,需要清洗、转换、映射和对齐等操作。相关数据处理工具和方法逐步涌现,但仍难以解决大量数据的交叉融合问题。为此,研究了基于ETL技术的多源异构数据融合方法,分... 在多源大数据融合阶段处理历年异构的数据时,涉及到多指标和多维度的问题,需要清洗、转换、映射和对齐等操作。相关数据处理工具和方法逐步涌现,但仍难以解决大量数据的交叉融合问题。为此,研究了基于ETL技术的多源异构数据融合方法,分析了常用的ETL工具和数据融合技术,包括数据抽取、转换、加载工具以及数据处理算法。分析了面向灵活需求、业务交叉较多和实时数据流场景时,遇到的数据源异构、数据结构差异、数据更新频率困难等问题,并从模块化设计、逻辑和参数分离、标准化构件库、轻量级JSON格式的配置文件等方面研究了ETL工具模块化扩展和构件重复使用的方法,以便更好地处理大规模异构数据。解决了多源大数据融合阶段的交叉融合问题,对提高数据处理效率、确保数据质量以及支持更深入的数据分析和决策具有重要意义。 展开更多
关键词 教育统计 数据挖掘 转换-抽取-加载 软件工程
下载PDF
基于大数据的医院信息集成平台建设与应用 被引量:31
2
作者 黄跃 魏岚 +1 位作者 张蕾 费晓璐 《中国医学装备》 2019年第4期103-105,共3页
目的:构建医院大数据集成平台,实现信息系统的互联互通和信息共享,推进智慧医疗的发展。方法:构建医院大数据集成平台,对医疗机构多系统信息进行整合,对多系统、多格式的数据进行抽取-转换-加载(ETL),提供统一的医疗数据访问服务,降低... 目的:构建医院大数据集成平台,实现信息系统的互联互通和信息共享,推进智慧医疗的发展。方法:构建医院大数据集成平台,对医疗机构多系统信息进行整合,对多系统、多格式的数据进行抽取-转换-加载(ETL),提供统一的医疗数据访问服务,降低信息交互带来的系统压力。结果:医院集成平台为医疗机构信息化建设提供统一的数据标准和接口标准,实现了医疗机构不同业务系统与集成平台的有效集成与信息共享;临床信息一体化应用中报表233张,指标386个,涉及门急诊、住院、医技工作量、护理、院感及重点监控等10余类。提升医护工作者工作效率及临床诊疗质量,实现高效运营、精益管理和优质服务。结论:基于大数据的医院信息集成平台的建设,可实现医疗机构有效监管与科学决策,提升各职能部门、临床科室对数据利用以及医疗机构服务的核心竞争力,逐步推进智慧医院建设的战略目标。 展开更多
关键词 集成平台 数据中心 抽取-转换- 智慧医疗
下载PDF
数据仓库ETL元模型设计 被引量:9
3
作者 宋旭东 闫晓岚 +1 位作者 刘晓冰 杨莉国 《计算机仿真》 CSCD 北大核心 2010年第9期106-108,119,共4页
针对传统的ETL(Extract/Transform/Load)开发方法难以满足企业的决策需求,复杂性和高效性是ETL开发面临的两大主要问题。为此,在数据仓库系统统一集成建模框架下,为提高管理质量和快速性,提出一种数据仓库ETL元模型设计方法,取代了以往... 针对传统的ETL(Extract/Transform/Load)开发方法难以满足企业的决策需求,复杂性和高效性是ETL开发面临的两大主要问题。为此,在数据仓库系统统一集成建模框架下,为提高管理质量和快速性,提出一种数据仓库ETL元模型设计方法,取代了以往在特定的数据仓库中对ETL建模的方法,使得ETL过程较早地进入数据仓库设计阶段,实现了ETL与数据仓库在概念层上的无缝融合,减少了开发时间和成本代价。最后通过模型实际应用,验证了方法的可行性和高效性。 展开更多
关键词 数据仓库 抽取-转换- 统一建模语言扩展 元模型
下载PDF
基于语义树的非结构化年鉴Excel表格的ETL方法 被引量:2
4
作者 赵乐 赵宏宇 +1 位作者 刘斌 陈彦如 《计算机应用》 CSCD 北大核心 2021年第S02期131-135,共5页
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义... 针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求。 展开更多
关键词 EXCEL表格 抽取-转换- 语义树 正则表达式 数据仓库
下载PDF
基于MapReduce的分布式ETL调度优化方法 被引量:2
5
作者 宋杰 郝文宁 +1 位作者 陈刚 靳大尉 《指挥信息系统与技术》 2013年第4期17-20,共4页
分析了分布式抽取-转换-加载(ETL)节点调度方法,给出了一种根据ETL节点抽取的数据类型对所抽取数据进行分割的策略,并提出了基于映射/化简(MapReduce)的分布式ETL节点调度方法。试验表明,该方法提升了ETL节点的数据处理能力,... 分析了分布式抽取-转换-加载(ETL)节点调度方法,给出了一种根据ETL节点抽取的数据类型对所抽取数据进行分割的策略,并提出了基于映射/化简(MapReduce)的分布式ETL节点调度方法。试验表明,该方法提升了ETL节点的数据处理能力,改善了整个ETL过程的吞吐率及响应时间等计算性能,从而提高了分布式ETL的效率。 展开更多
关键词 抽取-转换- 映射 化简 调度
下载PDF
基于模型驱动的ETL模型映射方法 被引量:1
6
作者 姚全珠 白敏 黄蔚 《计算机工程》 CAS CSCD 北大核心 2009年第19期91-93,96,共4页
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了... 针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。 展开更多
关键词 数据抽取--转换技术 逻辑模型 概念模型 数据集成
下载PDF
面向城市基础设施智慧管养的大数据智能融合方法 被引量:7
7
作者 刘佳俊 喻钢 胡珉 《计算机应用》 CSCD 北大核心 2017年第10期2983-2990,2998,共9页
针对运维大数据维度高、形式多样化和变化迅速等特性,为提高数据融合效率以及平台的数据统计和决策分析性能,降低抽取-转换-加载(ETL)执行时间开销和数据中心负担,面向智慧管养需求提出一种多层次任务调度(MTS)ETL框架(MTS-ETL)。首先,... 针对运维大数据维度高、形式多样化和变化迅速等特性,为提高数据融合效率以及平台的数据统计和决策分析性能,降低抽取-转换-加载(ETL)执行时间开销和数据中心负担,面向智慧管养需求提出一种多层次任务调度(MTS)ETL框架(MTS-ETL)。首先,将数据仓库分为数据临时区、数据仓储区、数据分类区和数据分析区,并根据所分区域将完整的ETL过程划分为4个层次的ETL任务调度环节,同时设计了多频率ETL运行调度以及顺序和非顺序两种ETL工作模式;接着,基于MTS-ETL框架的非顺序工作模式进行数据融合的概念建模、逻辑建模和物理建模;最后,利用Pentaho Data Integration设计ETL转换模块和工作模块以实现数据融合方法。在交通流量数据融合实验中,该方法融合136 754条数据的时间仅为28.4 s;在千量级的数据融合实验中比传统ETL方法的总平均执行时间降低了6.51%;报表分析结果表明其在融合400万条数据时依然能保证ETL过程的可靠性。所提方法能够有效融合运维大数据,提高平台统计分析性能,并维持ETL执行时间开销在较低水平。 展开更多
关键词 大数据 抽取-转换- 数据融合 数据仓库 城市基础设施管养
下载PDF
粒子群算法在分布式ETL任务调度中的应用 被引量:3
8
作者 王春阳 赵书良 王长宾 《计算机工程与应用》 CSCD 2013年第9期150-155,共6页
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度... 随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。 展开更多
关键词 分布式抽取-转换-(ETL) 任务调度 基于置换的离散型粒子群算法
下载PDF
基于多Agent与工作流的分布式ETL引擎的研究 被引量:2
9
作者 丁进 郭朝珍 《计算机应用》 CSCD 北大核心 2009年第1期319-322,共4页
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术... 针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。 展开更多
关键词 抽取-转换- 多AGENT 工作流 分布式 协同
下载PDF
不动产林权数据整合方法研究 被引量:3
10
作者 刘庆林 吴建廷 康来成 《信息技术与信息化》 2017年第6期123-129,共7页
不动产历史存量数据整合建库,是不动产统一登记发证工作的重要保障,但面临诸多问题。当前不动产登记数据具有多源异构、数据量大等特点,难以高效率、自动化、流程化的整合。房-地的关联、整合、编码、落宗,已有大量经验,但林-地数据整... 不动产历史存量数据整合建库,是不动产统一登记发证工作的重要保障,但面临诸多问题。当前不动产登记数据具有多源异构、数据量大等特点,难以高效率、自动化、流程化的整合。房-地的关联、整合、编码、落宗,已有大量经验,但林-地数据整合入库,经验较少。本文基于某市不动产数据整合实际出发,对不动产林权数据如何使用ETL(Extract-Transform-Load)技术整合入库,做了些初步探索。对构建林-地登记数据整合长效机制具有重要意义。 展开更多
关键词 不动产 抽取-转换- 林权 数据整合
下载PDF
ETL任务集群调度方法 被引量:3
11
作者 李磊 《计算机技术与发展》 2018年第11期35-38,共4页
随着数据仓库规模越来越大,ETL任务也不断增多,单机调度ETL任务导致多数ETL任务不能按时运行或者不能运行情况时常发生。对基于Kettle的ETL任务调度方法进行了研究,根据这种ETL任务特性,ETL任务调度方法作用的对象是一批相互没有制约的... 随着数据仓库规模越来越大,ETL任务也不断增多,单机调度ETL任务导致多数ETL任务不能按时运行或者不能运行情况时常发生。对基于Kettle的ETL任务调度方法进行了研究,根据这种ETL任务特性,ETL任务调度方法作用的对象是一批相互没有制约的任务。把ETL任务调度分为两个阶段:任务分配与任务执行。为了避免集群负载的不均衡,根据ETL任务的关键特性数据源的数据量,使用贪婪调度算法进行ETL任务分配。为了避免一些ETL任务获取不到机会执行,采用动态调整任务优先级的方法,使用高响应比优先调度算法执行ETL任务。通过ETL任务测试该集群调度方法的效率,主要比较ETL任务执行时所消耗的CPU、内存,以及一次全部的ETL任务执行完成后使用的总时间,并与轮转调度算法进行对比,结果表明效率高于轮转算法。 展开更多
关键词 数据仓库 抽取-转换- quartz集群调度 贪婪调度算法 KETTLE
下载PDF
基于WebGIS的环保信息化系统设计与实现 被引量:2
12
作者 徐延军 《上海船舶运输科学研究所学报》 2022年第1期44-49,共6页
为解决传统环境保护工作中环保数据共享性不强、数据采集工作难度大和数据整合展示能力不足等问题,按新时代生态文明建设和环境保护的要求,结合环保信息化业务场景,设计一种基于网络地理信息系统(WebGIS)的环保信息化系统。在环保信息... 为解决传统环境保护工作中环保数据共享性不强、数据采集工作难度大和数据整合展示能力不足等问题,按新时代生态文明建设和环境保护的要求,结合环保信息化业务场景,设计一种基于网络地理信息系统(WebGIS)的环保信息化系统。在环保信息化管理业务中应用该系统,围绕环境质量管理,以全国第二次污染物普查数据和空间地理信息等多源异构数据为基础,以WebGIS技术为展示工具,开发环保信息化管理系统,为城市环境治理和污染源管理提供技术保障。 展开更多
关键词 环保信息化 网络地理信息系统(WebGIS) 抽取-转换-(ETL) 数据融合
下载PDF
A发电企业内部审计信息化建设问题及优化对策 被引量:1
13
作者 刘艳华 《信息与电脑》 2022年第23期222-224,共3页
A发电企业内部审计的信息化建设水平处于初级阶段,制约企业内部审计信息化发展的主要问题在于内部审计信息化数据挖掘与应用技术不足,审计信息化与企业整体信息化体系未形成有效融合协同发展的局面。要想进一步提升企业内部审计信息化... A发电企业内部审计的信息化建设水平处于初级阶段,制约企业内部审计信息化发展的主要问题在于内部审计信息化数据挖掘与应用技术不足,审计信息化与企业整体信息化体系未形成有效融合协同发展的局面。要想进一步提升企业内部审计信息化数据应用能力,需要优化内部审计信息化协同应用的组织架构,进而通过提高企业内部审计信息化建设水平,保证高质量、高效率的信息化审计。 展开更多
关键词 发电企业 内部审计 信息化 抽取-转换-(ETL)数据抽取 协同架构
下载PDF
数字城市建设初步研究
14
作者 袁犁 《铁道勘察》 2007年第6期55-58,共4页
数字城市建设是一个复杂的系统工程,涉及到政府各部门和社会的方方面面。在其建设过程中,需要通讯网络基础设施、计算机硬件基础设施、空间信息基础设施、信息共享环境、安全保障措施、软件系统等一系列物理实体和逻辑实体的支撑来实现... 数字城市建设是一个复杂的系统工程,涉及到政府各部门和社会的方方面面。在其建设过程中,需要通讯网络基础设施、计算机硬件基础设施、空间信息基础设施、信息共享环境、安全保障措施、软件系统等一系列物理实体和逻辑实体的支撑来实现。概括地讲,数字城市信息共享服务体系大致可以从"软"和"硬"两个角度来进行研究和建设。"软"是指信息共享服务相关的标准、政策、安全保障、软件功能等的研究和建设;"硬"是指信息共享服务体系实现所需要的计算机硬件、存储设备、网络基础设施、基础数据、专业数据等的研究和建设。 展开更多
关键词 数字城市 数字城市框架体系 数字城市系统配置 ETL(抽取-转换-)技术 分布式工作流技术 保障体系
下载PDF
数据仓库ETL任务调度模型研究 被引量:14
15
作者 宋旭东 刘晓冰 《控制与决策》 EI CSCD 北大核心 2011年第2期271-275,共5页
数据仓库系统包含众多的抽取-转换-加载(ETL)任务,这些任务具有一定的优先约束关系.在多处理机环境下,如何高效地调度这些ETL任务是构建数据仓库需要研究的重要问题.对此,在对数据仓库ETL任务调度规则进行归纳总结的基础上,以数据仓库总... 数据仓库系统包含众多的抽取-转换-加载(ETL)任务,这些任务具有一定的优先约束关系.在多处理机环境下,如何高效地调度这些ETL任务是构建数据仓库需要研究的重要问题.对此,在对数据仓库ETL任务调度规则进行归纳总结的基础上,以数据仓库总的ETL完成时间最短为目标,建立了数据仓库ETL任务调度模型.同时结合问题的特点,采用同层划分的思想,提出基于同层划分遗传算法求解问题的方法.最后,通过应用实例验证了所建立模型和求解算法的可行性和有效性. 展开更多
关键词 数据仓库 抽取-转换- 任务调度 同层划分 遗传算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部