期刊文献+
共找到149篇文章
< 1 2 8 >
每页显示 20 50 100
基于大数据BI技术的智慧工地数据可视化平台的设计与研究--以某大型建筑工程集团为例
1
作者 谭晖涛 谢赞福 +1 位作者 陆小霞 钟山 《软件》 2024年第2期28-33,43,共7页
大数据BI(Business Intelligence)技术在数据挖掘、数据分析、数据可视化等方面的功能实现较成熟,已广泛应用在制造业、零售业等行业。将大数据BI技术融入智慧工地,建立数据可视化平台,可以解决智慧工地存在的局部“数据孤岛”等问题,... 大数据BI(Business Intelligence)技术在数据挖掘、数据分析、数据可视化等方面的功能实现较成熟,已广泛应用在制造业、零售业等行业。将大数据BI技术融入智慧工地,建立数据可视化平台,可以解决智慧工地存在的局部“数据孤岛”等问题,让智慧工地的海量数据得到最大价值体现。文章以某大型市政特级资质建筑工程集团为例,采用基于Hadoop+Spark的技术架构,以在建的大型地铁市政工程项目为实践,主要论述数据可视化平台架构选型、建立数据仓库、数据ETL、数据可视、Spark引擎框架与MapReduce在数据处理性能方面的对比等。构建基于大数据BI技术的智慧工地可视化数据平台,能有效推进智慧工地的开展,提升对工程项目在质量安全、绿色施工、成本管控等方面的管理。 展开更多
关键词 智慧工地 extract-transform-load(ETL) 大数据BI(Business Intelligence) Spark 数据可视化
下载PDF
基于Hadoop技术的加速器大数据安全存储与高效分析系统设计 被引量:2
2
作者 赵子晨 杨锋 +3 位作者 郭玉辉 陈又新 李钊扬 刘海涛 《现代电子技术》 北大核心 2024年第8期9-17,共9页
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬... 为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。 展开更多
关键词 数据仓库 Hadoop技术 加速器 大数据 安全存储 HBASE ETL
下载PDF
一种高校招生录取数据清洗方法与系统实现
3
作者 高晓东 季荣军 《南通职业大学学报》 2024年第1期70-76,共7页
全国普通高校招生网上录取子系统提供了以DBF数据格式的数据下载功能,随着高考制度的改革,不同省份不同批次的招生录取数据结构存在较大差异,对高校后期录取数据的清洗和应用带来一定挑战。为解决招生录取异构数据的标准化问题,对录取... 全国普通高校招生网上录取子系统提供了以DBF数据格式的数据下载功能,随着高考制度的改革,不同省份不同批次的招生录取数据结构存在较大差异,对高校后期录取数据的清洗和应用带来一定挑战。为解决招生录取异构数据的标准化问题,对录取数据结构差异进行分析,通过自定义数据解析规则实现数据抽取和清洗,以灵活应对数据结构变化,并在不修改管理系统代码的前提下,完成系统开发和实现。实践表明,系统能够对异构数据完成自动解析并生成学生档案三联表,提高了高校招生录取数据管理工作效率,可为建立权威、统一的数据中心提供数据基础。 展开更多
关键词 高校招生 录取数据 数据清洗 ETL
下载PDF
基于ETL技术的多源异构数据融合方法研究
4
作者 杨国立 姜树明 《齐鲁工业大学学报》 CAS 2024年第4期18-24,共7页
在多源大数据融合阶段处理历年异构的数据时,涉及到多指标和多维度的问题,需要清洗、转换、映射和对齐等操作。相关数据处理工具和方法逐步涌现,但仍难以解决大量数据的交叉融合问题。为此,研究了基于ETL技术的多源异构数据融合方法,分... 在多源大数据融合阶段处理历年异构的数据时,涉及到多指标和多维度的问题,需要清洗、转换、映射和对齐等操作。相关数据处理工具和方法逐步涌现,但仍难以解决大量数据的交叉融合问题。为此,研究了基于ETL技术的多源异构数据融合方法,分析了常用的ETL工具和数据融合技术,包括数据抽取、转换、加载工具以及数据处理算法。分析了面向灵活需求、业务交叉较多和实时数据流场景时,遇到的数据源异构、数据结构差异、数据更新频率困难等问题,并从模块化设计、逻辑和参数分离、标准化构件库、轻量级JSON格式的配置文件等方面研究了ETL工具模块化扩展和构件重复使用的方法,以便更好地处理大规模异构数据。解决了多源大数据融合阶段的交叉融合问题,对提高数据处理效率、确保数据质量以及支持更深入的数据分析和决策具有重要意义。 展开更多
关键词 教育统计 数据挖掘 转换-抽取-加载 软件工程
下载PDF
面向数据质量的ETL过程建模与实现 被引量:23
5
作者 贾自艳 黄友平 +3 位作者 罗平 李嘉佑 秦亮曦 史忠植 《系统仿真学报》 CAS CSCD 2004年第5期907-911,914,共6页
为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程... 为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程统一的体系结构设计,包括ETL元数据对象建模、ETL转换函数设计、ETL任务建模以及ETL任务模型的描述语言(XTDL)。基于该体系结构和设计思想开发出一个ETL系统—MSETL,目的是为多策略数据挖掘平台(MSMiner)提供高质量的数据。它提供友好界面并对ETL过程进行统一的元数据管理,包括:ETL转换函数的注册和删除;任务模型的生成、执行和删除等功能。 展开更多
关键词 数据仓库 数据质量 抽取-转换-装载(ETL) 数据挖掘 数据清洗
下载PDF
一种通用的多数据库间数据抽取方法及应用 被引量:16
6
作者 刘如九 张振山 柴天佑 《北京交通大学学报》 EI CAS CSCD 北大核心 2008年第4期14-18,共5页
为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽... 为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽取转换基于抽取规则,抽取规则采用可视化方法编辑生成;抽取规则存储于规则库,供多次调用修改;多个抽取任务组成抽取任务队列.开发的抽取工具软件DbBridge,支持从Oracle,SQL Server,SAS,Access,Excel等数据源抽取数据.软件成功应用于某数据仓库的建立及数据迁移工作. 展开更多
关键词 数据仓库 数据的抽取转换加载 数据迁移 关系型数据库
下载PDF
ETL应用优化设计与实现研究 被引量:9
7
作者 张靖 雷航 +1 位作者 唐雪飞 孟帅朋 《微电子学与计算机》 CSCD 北大核心 2012年第4期134-137,共4页
分析和研究了传统ETL工作流程处理过程,采用JAVA技术,提出了ETL工作流程优化方案,对传统ETL性能问题提出了优化办法,并进行优化处理,很好地解决了数据集成处理过程数据融合、数据一致化和数据同步更新等重要问题,减轻了瓶颈制约,节约了... 分析和研究了传统ETL工作流程处理过程,采用JAVA技术,提出了ETL工作流程优化方案,对传统ETL性能问题提出了优化办法,并进行优化处理,很好地解决了数据集成处理过程数据融合、数据一致化和数据同步更新等重要问题,减轻了瓶颈制约,节约了处理时间开销.实际应用证明,优化后的ETL流程方案有效地减少了传统ETL工作流的时间花费,执行效率好,具有良好的实践应用价值. 展开更多
关键词 ETL 优化 设计 效率 性能
下载PDF
数据清理及其在数据仓库中的应用 被引量:17
8
作者 庄晓青 徐立臻 董逸生 《计算机应用研究》 CSCD 北大核心 2003年第6期147-149,共3页
数据仓库是为决策服务的,这里的数据是从各种异构的数据源中采集过来的。由于各个数据源中的数据可能存在错误以及种种不一致性,因而为了确保决策数据的质量必须要对各个数据源中抽取出来的数据进行清理转换。数据清理就是发现数据源中... 数据仓库是为决策服务的,这里的数据是从各种异构的数据源中采集过来的。由于各个数据源中的数据可能存在错误以及种种不一致性,因而为了确保决策数据的质量必须要对各个数据源中抽取出来的数据进行清理转换。数据清理就是发现数据源中数据的错误并加以清除或修改,发现和纠正数据源之间数据的不一致性。分析了数据清理概念和方法以及在数据仓库中的应用。 展开更多
关键词 数据仓库 数据清理 模式冲突 ETL(Extraction Transformation Loading)
下载PDF
调度自动化系统增强型数据仓库平台构建及应用 被引量:11
9
作者 何晓峰 王钢 李海锋 《电力系统自动化》 EI CSCD 北大核心 2008年第4期81-84,102,共5页
数据仓库是信息管理和分析型应用的有效平台。文中针对目前数据仓库不能支持实时数据存储处理和短时战术决策的局限性,提出了一种调度自动化系统增强型数据仓库平台体系结构,主要由信息一体化节点、实时数据处理中心、主动数据仓库和系... 数据仓库是信息管理和分析型应用的有效平台。文中针对目前数据仓库不能支持实时数据存储处理和短时战术决策的局限性,提出了一种调度自动化系统增强型数据仓库平台体系结构,主要由信息一体化节点、实时数据处理中心、主动数据仓库和系统管理工具等构成,从而实现了数据抽取和转换能力、实时响应性能以及对突发事件捕获能力的增强。在已投入电网运行的自开发SCUT2008电网调度自动化系统中的应用与测试,证明了其性能的增强。 展开更多
关键词 调度自动化系统 数据仓库 抽取 转换和加载(ETL) 实时数据库 主动规则
下载PDF
基于工作流的数据抽取转换加载 被引量:5
10
作者 谭支鹏 冯丹 +1 位作者 吴永英 彭峰 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第2期61-63,69,共4页
将数据的抽取转换加载(ETL)过程和工作流技术结合起来,研究了ETL过程的工作流调度问题,设计了一种简单串行和稳定可靠的循环遍历算法.为了提高ETL效率,将并行机制引入到节点访问算法中,对节点访问算法进行了改进,设计了新的节点访问算法... 将数据的抽取转换加载(ETL)过程和工作流技术结合起来,研究了ETL过程的工作流调度问题,设计了一种简单串行和稳定可靠的循环遍历算法.为了提高ETL效率,将并行机制引入到节点访问算法中,对节点访问算法进行了改进,设计了新的节点访问算法,并讨论了加入并行机制后可能会遇到的数据源并发控制等问题,并给出了解决方法.所提出的方法对提高数据集成效率很有效,在国产数据库系统的应用中可起到积极推动作用. 展开更多
关键词 数据的抽取转换加载 数据仓库 数据迁移 工作流
下载PDF
商务智能在电网调度控制系统数据分析中的应用 被引量:12
11
作者 宋鑫 郭骏 +3 位作者 尹寿垚 张勇 张哲 王茂海 《电力系统自动化》 EI CSCD 北大核心 2015年第12期93-96 145,145,共5页
为了准确定位电网调度控制运行的异常信息,需要从电网调度控制系统的大量历史信息中获取关键信息,文中从商务智能(BI)的角度提出了海量数据统计分析的解决方案。首先阐述了BI的概念及在电网调度控制系统中推广应用困难的原因,接着介绍... 为了准确定位电网调度控制运行的异常信息,需要从电网调度控制系统的大量历史信息中获取关键信息,文中从商务智能(BI)的角度提出了海量数据统计分析的解决方案。首先阐述了BI的概念及在电网调度控制系统中推广应用困难的原因,接着介绍了BI整合到电网调度控制系统中所必备的核心软件模块,最后结合智能电网调度控制系统(简称"D5000系统")的调控业务,以实例展示如何将BI融合到D5000系统中。 展开更多
关键词 智能电网调度控制系统 商务智能 星形模型 抽取—转换—加载 DASHBOARD
下载PDF
基于大数据的医院信息集成平台建设与应用 被引量:31
12
作者 黄跃 魏岚 +1 位作者 张蕾 费晓璐 《中国医学装备》 2019年第4期103-105,共3页
目的:构建医院大数据集成平台,实现信息系统的互联互通和信息共享,推进智慧医疗的发展。方法:构建医院大数据集成平台,对医疗机构多系统信息进行整合,对多系统、多格式的数据进行抽取-转换-加载(ETL),提供统一的医疗数据访问服务,降低... 目的:构建医院大数据集成平台,实现信息系统的互联互通和信息共享,推进智慧医疗的发展。方法:构建医院大数据集成平台,对医疗机构多系统信息进行整合,对多系统、多格式的数据进行抽取-转换-加载(ETL),提供统一的医疗数据访问服务,降低信息交互带来的系统压力。结果:医院集成平台为医疗机构信息化建设提供统一的数据标准和接口标准,实现了医疗机构不同业务系统与集成平台的有效集成与信息共享;临床信息一体化应用中报表233张,指标386个,涉及门急诊、住院、医技工作量、护理、院感及重点监控等10余类。提升医护工作者工作效率及临床诊疗质量,实现高效运营、精益管理和优质服务。结论:基于大数据的医院信息集成平台的建设,可实现医疗机构有效监管与科学决策,提升各职能部门、临床科室对数据利用以及医疗机构服务的核心竞争力,逐步推进智慧医院建设的战略目标。 展开更多
关键词 集成平台 数据中心 抽取-转换-加载 智慧医疗
下载PDF
基于XML的数据转换系统SuperETL 被引量:4
13
作者 柴胜 周云轩 +2 位作者 黄永平 王洪媛 王云霄 《计算机应用研究》 CSCD 北大核心 2006年第1期16-18,共3页
针对政府机构和企事业单位对数据资源整合的需求,提出一个数据转换系统SuperETL,主要介绍其设计目标、体系结构,并给出了系统中任务的XML定义标准。测试结果表明,SuperETL能够高效、智能地完成数据抽取(Extract)、清洗(C leaning)、转换... 针对政府机构和企事业单位对数据资源整合的需求,提出一个数据转换系统SuperETL,主要介绍其设计目标、体系结构,并给出了系统中任务的XML定义标准。测试结果表明,SuperETL能够高效、智能地完成数据抽取(Extract)、清洗(C leaning)、转换(Transformation)、装载(Loading)及ETL任务。 展开更多
关键词 抽取 清洗 转换 装载
下载PDF
基于电信数据仓库系统的ETL研究与设计 被引量:12
14
作者 李颖 郝克刚 葛玮 《计算机应用与软件》 CSCD 2009年第1期178-180,共3页
电信行业大都建立了自己的数据仓库系统,而建立数据仓库的最重要环节便是数据的抽取、转换和加载ETL(Extracting、Transformation、Loading)。通过对现有ETL系统的分析研究,设计并部分实现了基于某省电信公司数据仓库的ETL系统。采取XM... 电信行业大都建立了自己的数据仓库系统,而建立数据仓库的最重要环节便是数据的抽取、转换和加载ETL(Extracting、Transformation、Loading)。通过对现有ETL系统的分析研究,设计并部分实现了基于某省电信公司数据仓库的ETL系统。采取XML格式编辑整个ETL过程,实现部分图形化交互界面,并针对电信系统大数据量的特点,提出性能优化及改进的方法,提高了ETL效率。 展开更多
关键词 ETL 电信 数据仓库 大数据量
下载PDF
面向数据质量的ETL框架的设计与实现 被引量:20
15
作者 李庆阳 彭宏 《计算机工程与设计》 CSCD 北大核心 2010年第9期2057-2060,共4页
针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建... 针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理。基于该设计思想开发一个ETL工具-DQETL。DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理。最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤。 展开更多
关键词 数据仓库 数据质量 抽取-转换-装载(ETL) 规则推导 数据清洗
下载PDF
基于规则引擎的数据清洗 被引量:18
16
作者 叶舟 王东 《计算机工程》 EI CAS CSCD 北大核心 2006年第23期52-54,共3页
以往的数据清洗研究存在以下缺陷:检测和修复动作要么使用灵活性差的硬编码,要么依靠灵活却低效的人工判断。该文提出了一个使用规则来描述清洗逻辑,使用规则引擎来执行清洗逻辑,从而能够处理各种数据质量问题的数据清洗架构REBDCA,解... 以往的数据清洗研究存在以下缺陷:检测和修复动作要么使用灵活性差的硬编码,要么依靠灵活却低效的人工判断。该文提出了一个使用规则来描述清洗逻辑,使用规则引擎来执行清洗逻辑,从而能够处理各种数据质量问题的数据清洗架构REBDCA,解决了该问题。展示了REBDCA和一个ETL工具的集成,测试了REBDCA的性能,并和用硬编码完成相同逻辑的方案进行了性能对比。 展开更多
关键词 规则引擎 数据清洗 抽取-转换-装载
下载PDF
国家图书馆数据管理与分析平台建设 被引量:16
17
作者 张宁 李雪 《国家图书馆学刊》 CSSCI 北大核心 2016年第6期80-89,共10页
国家图书馆数据管理与分析平台是国家图书馆大数据工程的一个实验性项目。该项目选取国家图书馆五个核心系统的数据,在虚拟化平台上搭建相应的系统平台,通过数据收集、ETL处理、数据统计与分析等流程,形成统一的数据处理规范,并建立读... 国家图书馆数据管理与分析平台是国家图书馆大数据工程的一个实验性项目。该项目选取国家图书馆五个核心系统的数据,在虚拟化平台上搭建相应的系统平台,通过数据收集、ETL处理、数据统计与分析等流程,形成统一的数据处理规范,并建立读者、资源和行为数据的标签化体系,从数据层面上揭示国家图书馆的馆藏资源、资源利用情况和用户行为等重要信息,为国家图书馆大数据利用提供理论与实践依据。 展开更多
关键词 数据处理与分析 ETL 大数据 标签体系
下载PDF
基于关键属性比对的增量数据抽取方法 被引量:4
18
作者 刘胜 杨岳湘 +1 位作者 邓劲生 李阳 《计算机工程与应用》 CSCD 2012年第4期115-117,共3页
概述了ETL目前常用的增量数据抽取方法,在全表比对方法基础上,提出了基于关键属性比对的增量数据提取方法,描述了关键属性提取算法,并建立其模型,用实验验证了基于关键属性比对的方法优于全表比对方法和全表删除插入方法。
关键词 关键属性 增量数据抽取 全表比对 提取转换加载(ETL)
下载PDF
基于语义树的非结构化年鉴Excel表格的ETL方法 被引量:3
19
作者 赵乐 赵宏宇 +1 位作者 刘斌 陈彦如 《计算机应用》 CSCD 北大核心 2021年第S02期131-135,共5页
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义... 针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求。 展开更多
关键词 EXCEL表格 抽取-转换-加载 语义树 正则表达式 数据仓库
下载PDF
综合医院健康体检大数据标准化构建与应用 被引量:19
20
作者 姜树强 张建玲 +3 位作者 李玲 苏新 龙丽娟 马雯 《空军医学杂志》 2017年第3期213-215,共3页
目的总结分析医院体检大数据结构类型,规范医院体检数据标准,建立标准化体检数据库,创新综合医院体检以体检中心为枢纽的院前—院中—院后"一体化"医疗管理服务模式。方法对空军总医院2012—2015年的健康体检数据进行分析,运... 目的总结分析医院体检大数据结构类型,规范医院体检数据标准,建立标准化体检数据库,创新综合医院体检以体检中心为枢纽的院前—院中—院后"一体化"医疗管理服务模式。方法对空军总医院2012—2015年的健康体检数据进行分析,运用中国健康促进基金会医学物联网发展专项基金"体检与健康管理大数据应用多中心研究课题"的体检大数据清洗与分析平台,根据《体检检查项目数据集》和《体检检查项目数据值域代码》对我院体检数据进行标准化处理。结果将我院体检数据进行全面的结构化处理与分析,总结了医院体检大数据标准化建设的核心内容和应用的原则,建立了医院体检标准数据库,夯实了医院基本数字化、智能化功能的基础性工作。结论构建体检数据标准化与应用,是健康管理学科内涵建设的基础环节,是医院体检质量控制和优化服务流程的核心工作,是筑牢精准健康管理服务的重要前提,是提升健康体检市场竞争力的关键所在。 展开更多
关键词 标准化 数据清洗 大数据分析 服务模式
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部